923 字

5 分钟

图像处理与多模态消息组装

2026-04-28

LangChain

/

项目实战

/

多模态

/

图像处理

/

Gradio

图像处理与多模态消息组装#

本篇讨论项目中最容易写散的一层：如何把来自 Gradio 的不同输入形态，统一组装成 LangChain / 多模态模型可消费的 content 列表。

图像处理模块#

transcribe_image()#

1
def transcribe_image(image_path: str) -> dict | None:

为什么不直接传文件路径给模型？

本地路径对云端 API 不可见
必须把图片编码后「内嵌」进请求体

处理流程：

1
def transcribe_image(image_path: str) -> dict | None:
2
    try:
3
        with Image.open(image_path) as img:
4
            # RGBA（含透明通道）和 P（调色板）无法存为 JPEG
5
            # 统一转 RGB 保证格式兼容
6
            if img.mode in ('RGBA', 'P'):
7
                img = img.convert('RGB')
8

9
            img_format = img.format or 'JPEG'  # 读取不到时默认 JPEG
10

11
            # 用内存流代替临时文件，效率更高
12
            buffered = io.BytesIO()
13
            img.save(buffered, format=img_format)
14
            image_data = base64.b64encode(buffered.getvalue()).decode('utf-8')
15

16
            return {
17
                "type": "image_url",
18
                "image_url": {
19
                    "url": f"data:image/{img_format.lower()};base64,{image_data}",
20
                    # detail 控制 token 消耗：
21
                    # "low"  → 固定 85 token，速度快但粗糙
22
                    # "high" → 按图片尺寸计算，精准但贵
23
                    "detail": "high",
24
                },
25
            }
26
    except Exception as e:
27
        print(f"[图像处理失败] {e}")
28
        return None

io.BytesIO 是什么？
内存中的「虚拟文件」，用法和磁盘文件一样，但数据存在 RAM 里。

img.save(buffered, format=...) → 把图片数据写进内存

buffered.getvalue() → 取出全部字节数据

好处：不产生临时文件，程序结束后自动回收内存。

消息组装模块#

get_last_user_messages()#

1
def get_last_user_messages(history: list) -> list:

核心问题：为什么不直接发全部 history？

RunnableWithMessageHistory 已经自动管理 SQLite 里的完整历史，每次 invoke 只需要传「本轮新增的消息」。如果把全部 history 传进去，历史会被写入两次。

1
history 示意：
2
  [user₁, assistant₁, user₂, assistant₂, user₃, user₄]
3
                                            ↑         ↑
4
                               这两条是本轮新增，需要提取

1
def get_last_user_messages(history: list) -> list:
2
    if not history:
3
        return []
4
    if history[-1]["role"] == "assistant":
5
        return []  # 最后是 AI 回复，说明本轮已处理完
6

7
    # next() + 生成器：从后往前找第一个 assistant，比 for 循环更简洁
8
    last_assistant_idx = next(
9
        (i for i in range(len(history) - 1, -1, -1)
10
         if history[i]["role"] == "assistant"),
11
        -1  # 找不到时返回 -1（第一轮对话，全是 user 消息）
12
    )
13
    return history[last_assistant_idx + 1:]

submit_messages() 的 content 组装#

content 是发给 LangChain 的核心数据，支持文字和图片混合：

1
content = [
2
    {"type": "text",      "text": "描述一下图片"},
3
    {"type": "image_url", "image_url": {"url": "data:image/...", "detail": "high"}},
4
    {"type": "text",      "text": "🎤 [语音输入]: 这是语音转换的文字"},
5
]

三种消息格式的处理：

1
for x in user_messages:
2
    msg_content = x['content']
3

4
    # 情况 A：纯字符串
5
    # 来源：文字输入 或 音频转换后的文字
6
    if isinstance(msg_content, str):
7
        content.append({'type': 'text', 'text': msg_content})
8

9
    # 情况 B：列表格式（新版 Gradio type='messages' 的文本消息）
10
    # 结构：[{'type': 'text', 'text': '...'}, ...]
11
    elif isinstance(msg_content, list):
12
        for item in msg_content:
13
            if item.get('type') == 'text':
14
                content.append({'type': 'text', 'text': item['text']})
15

16
    # 情况 C：字典格式（图片文件路径）
17
    # 结构：{'path': '绝对路径', ...}
18
    elif isinstance(msg_content, dict):
19
        fp = msg_content.get('path') or msg_content.get('url')
20
        if fp:
21
            _append_file(content, fp)  # 读取并编码为 base64

兜底机制
如果用户只发了图片没发文字，某些模型会报错（没有文字提示）：
1
if content and not has_text:
2
    content.append({'type': 'text', 'text': '请详细描述这张图片的内容。'})

Gradio 回调链#

1
chat_input.submit(
2
    fn=add_message,           # 第一步：处理输入，立即更新界面
3
    inputs=[chatbot, chat_input],
4
    outputs=[chatbot, chat_input],
5
).then(
6
    fn=submit_messages,       # 第二步：调用 AI，等待回复
7
    inputs=[chatbot],
8
    outputs=[chatbot],
9
).then(
10
    fn=lambda: gr.MultimodalTextbox(interactive=True),  # 第三步：解锁输入框
11
    inputs=None,
12
    outputs=[chat_input],
13
)

常见格式错误速查#

场景	错误	原因	修复
存图片用 `(path,)`	`ValueError: Invalid message`	type=‘messages’ 不认 tuple	改为 `{'path': path}`
文字消息匹配不到	卡住不响应	新版 content 是 list 不是 str	增加 `isinstance(list)` 分支
只有图片没文字	模型报错或返回空	无文字提示	自动追加描述指令

相关笔记

图像处理与多模态消息组装

https://fuwari.vercel.app/posts/ai/llm/langchain/notes/08_project_case_studies/01_多模态聊天机器人/05_图像处理与多模态消息组装/

作者

OopsYanxi

发布于

2026-04-28

许可协议

CC BY-NC-SA 4.0

语音识别与降级链路

LangChain链路与会话历史

get_last_user_messages()

submit_messages() 的 content 组装

Gradio 回调链

常见格式错误速查