3205 字

16 分钟

结构化输出总结与多模态案例

2026-04-24

LangChain

/

结构化输出

/

多模态

/

实战案例

结构化输出总结与多模态案例#

本文定位
本文是 01_输出解析与结构化的进阶篇。前篇介绍了 OutputParser 体系（StrOutputParser、JsonOutputParser、PydanticOutputParser 等），本篇将聚焦 LangChain 推荐的统一结构化输出方案 with_structured_output，并以一个多模态机器人实战项目收尾，串联前面学到的所有知识。

1. with_structured_output：结构化输出的终极方案#

1.1 为什么需要新方案？#

在 01_输出解析与结构化中，我们学习了多种 OutputParser，它们的工作流程都是：模型生成自由文本 -> OutputParser 解析文本 -> 得到结构化数据。这种 “事后解析” 模式有几个固有缺陷：

问题	说明
格式不稳定	模型可能不遵循 prompt 中的格式指令，导致解析失败
Prompt 侵入	需要在 prompt 中注入大段格式说明，占用上下文窗口
错误恢复成本高	解析失败后只能重试或用 `OutputFixingParser` 二次修复
类型不安全	`JsonOutputParser` 返回 `dict`，缺乏编译期类型检查

1.2 设计理念#

with_structured_output 的核心思路是：不再让模型”生成文本后翻译”，而是让模型直接”说结构化的语言”。

通俗类比

OutputParser = 翻译官模式：对方说中文，你找个翻译帮你转成英文，翻译可能出错。

with_structured_output = 直接说对方的语言：对方本身就用英文回答你，省去翻译环节。

1.3 底层原理：Function Calling / Tool Use#

with_structured_output 利用了现代大模型提供的 结构化生成能力：

OpenAI → Function Calling（tools 参数）
Anthropic → Tool Use（tools 参数）
通义千问 / Google Gemini → Function Call

模型在生成时就被 约束在 Schema 内，从根本上提高输出的可靠性。

1.4 支持的模型#

并非所有模型都支持
with_structured_output 依赖模型的 Function Calling / Tool Use 能力，不支持的模型需回退到 OutputParser。

模型提供商	对应 LangChain 包	支持情况
OpenAI (GPT-4o, GPT-4)	`langchain-openai`	完全支持
Anthropic (Claude 4 Sonnet 等)	`langchain-anthropic`	完全支持
Google Gemini	`langchain-google-genai`	完全支持
通义千问 (Qwen)	`langchain-community`	支持
Ollama（本地部署）	`langchain-ollama`	部分支持

2. with_structured_output 实战#

2.1 方式一：传入 Pydantic 模型（推荐）#

这是最常用也是 最推荐 的方式，兼具类型安全与开发体验。

1
# pip install langchain langchain-openai pydantic
2

3
from langchain_openai import ChatOpenAI
4
from pydantic import BaseModel, Field
5

6
# 1. 定义 Pydantic 模型
7
class BookInfo(BaseModel):
8
    """从用户描述中提取书籍信息。"""
9
    title: str = Field(description="书名")
10
    author: str = Field(description="作者")
11
    year: int = Field(description="出版年份")
12
    genre: str = Field(description="书籍类型，如：小说、科幻、历史等")
13

14
# 2. 用 with_structured_output 绑定 Schema
15
llm = ChatOpenAI(model="gpt-4o", temperature=0)
16
structured_llm = llm.with_structured_output(BookInfo)
17

18
# 3. 直接调用，返回值就是 Pydantic 对象
19
result = structured_llm.invoke("刘慈欣的《三体》是2008年出版的科幻小说")
20

21
print(type(result))    # <class '__main__.BookInfo'>
22
print(result.title)    # 三体
23
print(result.author)   # 刘慈欣
24
print(result.year)     # 2008
25
print(result.genre)    # 科幻

返回值类型分析
当传入 Pydantic 模型时，返回值就是该模型的实例，可以直接用 . 访问属性，享受 IDE 的自动补全和类型检查。这与 PydanticOutputParser 类似，但不需要在 prompt 中注入格式指令。

2.2 方式二：传入 JSON Schema#

如果不想引入 Pydantic，可以直接传入符合 JSON Schema 规范的字典。

1
# pip install langchain langchain-openai
2

3
from langchain_openai import ChatOpenAI
4

5
json_schema = {
6
    "title": "BookInfo",
7
    "description": "从用户描述中提取书籍信息",
8
    "type": "object",
9
    "properties": {
10
        "title": {"type": "string", "description": "书名"},
11
        "author": {"type": "string", "description": "作者"},
12
        "year": {"type": "integer", "description": "出版年份"},
13
        "genre": {"type": "string", "description": "书籍类型"},
14
    },
15
    "required": ["title", "author", "year", "genre"],
16
}
17

18
llm = ChatOpenAI(model="gpt-4o", temperature=0)
19
structured_llm = llm.with_structured_output(json_schema)
20
result = structured_llm.invoke("刘慈欣的《三体》是2008年出版的科幻小说")
21
print(type(result))  # <class 'dict'>
22
print(result)        # {'title': '三体', 'author': '刘慈欣', 'year': 2008, 'genre': '科幻'}

注意
传入 JSON Schema 时，返回值是普通 dict，没有类型安全保障。通常只在动态 Schema 场景（如 Schema 来自数据库配置）下使用。

2.3 方式三：传入 TypedDict（Python 原生类型）#

从 LangChain v0.2 开始，还支持 Python 标准库的 TypedDict，不依赖 Pydantic。

1
# pip install langchain langchain-openai
2

3
from typing import TypedDict, Annotated
4
from langchain_openai import ChatOpenAI
5

6
class BookInfo(TypedDict):
7
    """从用户描述中提取书籍信息。"""
8
    title: Annotated[str, ..., "书名"]
9
    author: Annotated[str, ..., "作者"]
10
    year: Annotated[int, ..., "出版年份"]
11
    genre: Annotated[str, ..., "书籍类型"]
12

13
llm = ChatOpenAI(model="gpt-4o", temperature=0)
14
structured_llm = llm.with_structured_output(BookInfo)
15
result = structured_llm.invoke("刘慈欣的《三体》是2008年出版的科幻小说")
16
print(type(result))  # <class 'dict'>

2.4 include_raw=True：获取原始输出#

有时你需要同时看到模型的 原始响应 和解析结果（用于调试或日志）。

1
# pip install langchain langchain-openai pydantic
2

3
from langchain_openai import ChatOpenAI
4
from pydantic import BaseModel, Field
5

6
class BookInfo(BaseModel):
7
    title: str = Field(description="书名")
8
    author: str = Field(description="作者")
9

10
llm = ChatOpenAI(model="gpt-4o", temperature=0)
11
structured_llm = llm.with_structured_output(BookInfo, include_raw=True)
12
result = structured_llm.invoke("三体是刘慈欣写的")
13

14
print(result["raw"])            # AIMessage 原始响应对象
15
print(result["parsed"])         # BookInfo(title='三体', author='刘慈欣')
16
print(result["parsing_error"])  # None（解析成功时）

2.5 在 LCEL 管道中使用#

with_structured_output 返回的是一个 Runnable，完美兼容 LCEL 管道（详见 02_LangChain底层原理）。

1
# pip install langchain langchain-openai pydantic langchain-core
2

3
from langchain_openai import ChatOpenAI
4
from langchain_core.prompts import ChatPromptTemplate
5
from pydantic import BaseModel, Field
6

7
class Sentiment(BaseModel):
8
    """情感分析结果。"""
9
    text: str = Field(description="原始文本")
10
    sentiment: str = Field(description="情感倾向：positive / negative / neutral")
11
    confidence: float = Field(description="置信度，0-1 之间")
12

13
prompt = ChatPromptTemplate.from_messages([
14
    ("system", "你是一个情感分析专家。"),
15
    ("human", "请分析以下文本的情感：{text}"),
16
])
17
llm = ChatOpenAI(model="gpt-4o", temperature=0)
18

19
# 构建 LCEL 管道：Prompt → 结构化 LLM
20
chain = prompt | llm.with_structured_output(Sentiment)
21
result = chain.invoke({"text": "这家餐厅的菜太好吃了，下次还来！"})
22
# Sentiment(text='...', sentiment='positive', confidence=0.95)

3. 结构化输出方案总结与对比#

3.1 方案全景对比#

方案	类型安全	流式支持	模型要求	使用复杂度	推荐场景
`StrOutputParser`	—	原生支持	任意模型	极低	只需要纯文本输出
`JsonOutputParser`	—	支持	任意模型	低	需要 JSON 但 Schema 简单
`PydanticOutputParser`	强	不支持	任意模型	中	模型不支持 Function Calling
`with_structured_output` (Pydantic)	强	支持	需 Function Calling	低	大多数场景首选
`with_structured_output` (JSON Schema)	—	支持	需 Function Calling	低	动态 Schema
`with_structured_output` (TypedDict)	中	支持	需 Function Calling	低	不想依赖 Pydantic

3.2 选型建议#

一句话选型
模型支持 Function Calling → with_structured_output + Pydantic；不支持 → PydanticOutputParser。

OutputParser 系列：不依赖模型能力，任何能生成文本的模型都能用。适合开源小模型、旧版 API。
with_structured_output：可靠性高、代码简洁、支持流式。适合 GPT-4o / Claude / Qwen 等主流商用模型。

3.3 决策流程图#

4. 实战项目：多模态机器人#

4.1 项目需求#

构建一个 多模态智能助手，能够接收 文本 + 图片 混合输入、理解图片内容并用自然语言回答、将分析结果以 结构化格式 输出。

什么是多模态？
多模态 (Multimodal) 指模型能同时处理多种类型的数据输入——文本、图片、音频、视频等。GPT-4o、Claude 4 Sonnet、Qwen-VL 等模型都支持图文多模态。

4.2 多模态在 LangChain 中的实现原理#

在 LangChain 中，多模态输入通过 HumanMessage 的 content 列表 实现。content 不仅可以是字符串，还可以是包含 text 和 image_url 类型元素的列表：

1
from langchain_core.messages import HumanMessage
2

3
msg = HumanMessage(content=[
4
    {"type": "text", "text": "请描述这张图片"},
5
    {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}},
6
])

4.3 支持多模态的模型#

模型	LangChain 包	备注
GPT-4o / GPT-4o-mini	`langchain-openai`	最主流的多模态模型
Claude 4 Sonnet / Claude 3.5 Sonnet	`langchain-anthropic`	图片理解能力强
Gemini 1.5 / Gemini 2	`langchain-google-genai`	支持超长上下文
Qwen-VL	`langchain-community`	国内可用方案

4.4 完整代码实现#

4.4.1 图片编码工具函数#

1
# pip install langchain langchain-openai pydantic Pillow requests
2

3
import base64
4
from pathlib import Path
5

6
def encode_image_to_base64(image_path: str) -> str:
7
    """将本地图片文件编码为 base64 字符串。"""
8
    path = Path(image_path)
9
    if not path.exists():
10
        raise FileNotFoundError(f"图片不存在：{image_path}")
11
    with open(path, "rb") as f:
12
        return base64.standard_b64encode(f.read()).decode("utf-8")
13

14
def get_image_media_type(image_path: str) -> str:
15
    """根据文件后缀推断 MIME 类型。"""
16
    suffix = Path(image_path).suffix.lower()
17
    mime_map = {".jpg": "image/jpeg", ".jpeg": "image/jpeg",
18
                ".png": "image/png", ".gif": "image/gif", ".webp": "image/webp"}
19
    return mime_map.get(suffix, "image/jpeg")

4.4.2 构建多模态消息#

1
from langchain_core.messages import HumanMessage, SystemMessage
2

3
def build_multimodal_message(
4
    text: str,
5
    image_path: str | None = None,
6
    image_url: str | None = None,
7
) -> HumanMessage:
8
    """构建一条包含文本和图片的多模态消息。"""
9
    content = [{"type": "text", "text": text}]
10

11
    if image_path:
12
        b64 = encode_image_to_base64(image_path)
13
        media_type = get_image_media_type(image_path)
14
        content.append({
15
            "type": "image_url",
16
            "image_url": {"url": f"data:{media_type};base64,{b64}"},
17
        })
18
    elif image_url:
19
        content.append({
20
            "type": "image_url",
21
            "image_url": {"url": image_url},
22
        })
23

24
    return HumanMessage(content=content)

4.4.3 调用模型处理图文#

1
from langchain_openai import ChatOpenAI
2

3
llm = ChatOpenAI(model="gpt-4o", temperature=0)
4

5
# 方式 A：本地图片 / 方式 B：在线 URL
6
msg = build_multimodal_message(
7
    text="请描述这张图片的内容",
8
    image_path="./photos/landscape.jpg",
9
    # image_url="https://example.com/photo.jpg",  # 或使用 URL
10
)
11

12
response = llm.invoke([
13
    SystemMessage(content="你是一个多模态图片分析助手，请用中文回答。"),
14
    msg,
15
])
16
print(response.content)

4.4.4 结构化输出解析图片内容#

将 多模态 + 结构化输出 结合，这是本章知识的综合运用。

1
# pip install langchain langchain-openai pydantic
2

3
from langchain_openai import ChatOpenAI
4
from langchain_core.messages import HumanMessage, SystemMessage
5
from pydantic import BaseModel, Field
6

7
class ImageAnalysis(BaseModel):
8
    """图片分析结果的结构化输出。"""
9
    description: str = Field(description="图片的整体描述，1-3句话")
10
    objects: list[str] = Field(description="图片中识别到的主要物体列表")
11
    scene: str = Field(description="场景类型：室内/室外/自然/城市/其他")
12
    dominant_colors: list[str] = Field(description="图片的主要颜色")
13
    mood: str = Field(description="图片传达的氛围或情绪")
14

15
llm = ChatOpenAI(model="gpt-4o", temperature=0)
16
structured_llm = llm.with_structured_output(ImageAnalysis)
17

18
msg = build_multimodal_message(
19
    text="请仔细分析这张图片，提取关键信息。",
20
    image_path="./photos/landscape.jpg",
21
)
22

23
result = structured_llm.invoke([
24
    SystemMessage(content="你是一个专业的图片分析 AI 助手。"),
25
    msg,
26
])
27

28
print(f"描述：{result.description}")
29
print(f"物体：{result.objects}")
30
print(f"场景：{result.scene}")
31
print(f"主色调：{result.dominant_colors}")
32
print(f"氛围：{result.mood}")

输出示例：

1
描述：一幅宁静的山间湖泊风景照，湖面倒映着远处的雪山和蓝天。
2
物体：['湖泊', '雪山', '松树', '蓝天', '白云']
3
场景：自然 | 主色调：['蓝色', '白色', '绿色'] | 氛围：宁静祥和

4.5 图片 URL vs base64 编码对比#

特性	URL 输入	base64 编码
适用场景	图片在公开服务器上	本地图片或私有网络图片
传输效率	高（模型端直接拉取）	低（体积约增大 33%）
隐私性	需 URL 公开可访问	数据嵌入请求，更安全
可靠性	受网络波动影响	不受外部网络影响

推荐策略
开发调试 / 用户上传场景用 base64；已有公开图片用 URL 以减少传输开销。

4.6 错误处理与边界情况#

在生产环境中，需要妥善处理异常场景：

1
# pip install langchain langchain-openai pydantic
2

3
from pathlib import Path
4
from langchain_openai import ChatOpenAI
5
from pydantic import BaseModel, Field
6

7
class ImageAnalysis(BaseModel):
8
    description: str = Field(description="图片描述")
9
    objects: list[str] = Field(description="识别到的物体")
10

11
def safe_analyze_image(image_path: str, text: str = "请分析这张图片") -> dict:
12
    """带错误处理的图片分析函数。"""
13
    path = Path(image_path)
14
    if not path.exists():
15
        return {"error": f"文件不存在：{image_path}"}
16

17
    size_mb = path.stat().st_size / (1024 * 1024)
18
    if size_mb > 20:
19
        return {"error": f"图片过大：{size_mb:.1f}MB，上限为 20MB"}
20

21
    valid_extensions = {".jpg", ".jpeg", ".png", ".gif", ".webp"}
22
    if path.suffix.lower() not in valid_extensions:
23
        return {"error": f"不支持的格式：{path.suffix}"}
24

25
    try:
26
        llm = ChatOpenAI(model="gpt-4o", temperature=0)
27
        structured_llm = llm.with_structured_output(ImageAnalysis, include_raw=True)
28
        msg = build_multimodal_message(text=text, image_path=image_path)
29
        result = structured_llm.invoke([msg])
30

31
        if result["parsing_error"]:
32
            return {"error": f"解析失败：{result['parsing_error']}"}
33
        return {"data": result["parsed"]}
34
    except Exception as e:
35
        return {"error": f"模型调用失败：{str(e)}"}

常见错误

图片格式不支持：确保使用 JPEG、PNG、GIF 或 WebP 格式。

图片过大：OpenAI 限制单张图片最大 20MB，建议预处理压缩。

模型不支持多模态：纯文本模型（如 GPT-3.5-turbo）无法处理图片输入。

API 限流：多模态请求消耗更多 Token，注意速率限制。

5. 项目扩展思路#

5.1 加入 Memory 实现多轮图文对话#

当前实现是单轮问答。加入对话记忆后，机器人可以记住之前分析过的图片、支持追问和跨图片比较。

1
# pip install langchain langchain-openai langchain-core
2

3
from langchain_core.chat_history import InMemoryChatMessageHistory
4
from langchain_core.runnables.history import RunnableWithMessageHistory
5

6
store = {}
7
def get_session_history(session_id: str):
8
    if session_id not in store:
9
        store[session_id] = InMemoryChatMessageHistory()
10
    return store[session_id]
11

12
chain_with_memory = RunnableWithMessageHistory(chain, get_session_history)

5.2 结合 RAG 做图文检索#

将图片分析结果写入向量数据库，实现 基于语义的图片检索：批量分析图片获取结构化描述 -> 描述文本向量化存入 ChromaDB / FAISS -> 用户自然语言查询检索最相关的图片。这将在后续章节 01_文档索引构建中详细展开。

5.3 部署为 API 服务#

使用 LangServe 可以将 Chain 快速部署为 REST API，前端通过 HTTP POST 发送图文数据即可获取结构化分析结果。

1
# pip install langserve fastapi uvicorn
2

3
from fastapi import FastAPI
4
from langserve import add_routes
5

6
app = FastAPI(title="多模态分析 API")
7
add_routes(app, chain, path="/analyze")
8
# 启动：uvicorn main:app --reload

小结#

本文覆盖了两大核心主题：with_structured_output 是 LangChain 推荐的结构化输出方案，通过 Function Calling 直接生成结构化数据，比 OutputParser 更可靠简洁；多模态机器人 展示了如何在 LangChain 中处理图文混合输入并结合结构化输出分析图片。

结合 01_输出解析与结构化的 OutputParser 基础和本文的进阶方案，你已掌握 LangChain 中结构化输出的完整知识体系。接下来可以进入更复杂的应用场景：Chain 编排、Agent 工具调用、RAG 检索增强等（参见 01_LangChain概述与核心架构中的模块全景图）。

结构化输出总结与多模态案例

https://fuwari.vercel.app/posts/ai/llm/langchain/notes/03_output_parsing/02_结构化输出总结与多模态案例/

作者

OopsYanxi

发布于

2026-04-24

许可协议

CC BY-NC-SA 4.0

输出解析与结构化

Agent 与工具使用 · 章节索引

1

结构化输出总结与多模态案例

1. with_structured_output：结构化输出的终极方案

1.1 为什么需要新方案？

1.2 设计理念

1.3 底层原理：Function Calling / Tool Use

1.4 支持的模型

2. with_structured_output 实战

2.1 方式一：传入 Pydantic 模型（推荐）

2.2 方式二：传入 JSON Schema

2.3 方式三：传入 TypedDict（Python 原生类型）

2.4 include_raw=True：获取原始输出

4.2 多模态在 LangChain 中的实现原理

4.5 图片 URL vs base64 编码对比

4.6 错误处理与边界情况

5. 项目扩展思路

5.1 加入 Memory 实现多轮图文对话

5.2 结合 RAG 做图文检索

5.3 部署为 API 服务

小结