539 字

3 分钟

项目概览与技术栈

2026-04-28

/

多模态

/

项目实战

/

Gradio

/

阿里云

项目概览与技术栈#

本篇是项目索引的开场笔记，先给出项目的输入输出边界、系统总览与关键设计决策。读完这篇后，再进入后续模块拆解会更容易建立全局视角。

1 项目目标#

这个项目的目标很明确：构建一个支持文字、图片、语音三种输入方式的聊天机器人，并让这三类输入最终都汇入同一条 LangChain 对话链路。

核心能力包括：

这个图里最关键的一点是：三种输入并不是分别走三套系统，而是在预处理之后统一汇入 LangChain 消息流。

为什么音频在前端阶段就转文字？
语音文件体积大，base64 后更大，不适合直接写入 SQLite 历史。在 add_message 阶段转成文字，既节省存储，又让历史可搜索。

为什么不用 OpenAI 兼容接口发音频？
阿里云 compatible-mode 接口只支持公网 URL，不支持本地文件或 base64。必须改用 DashScope 原生多模态接口才能用 Data URI 传音频。

为什么用 RunnableWithMessageHistory？
自动处理「读历史 → 注入 Prompt → 写历史」三步，不需要手动管理 SQLite，代码量减少约 60%。

1
pip install gradio langchain langchain-community pillow httpx openai

相关笔记

项目概览与技术栈

作者

OopsYanxi

发布于

2026-04-28

许可协议