2426 字

12 分钟

LangServe 部署与生产实践

2026-04-24

LangChain

/

LangServe

/

FastAPI

/

Docker

/

部署

LangServe 部署与生产实践#

1 为什么需要部署#

1.1 从脚本到服务#

当你在 Jupyter Notebook 或本地 .py 文件里写好了一个 Chain，它只是一个本地脚本——只有你自己能运行。要让前端页面、移动端 App、其他微服务都能使用这个 Chain，你需要把它发布为一个网络服务（通常是 REST API）。这个过程就是部署（Deployment）。

生活类比
你在家做了一道好菜（写好了一个 Chain），但这道菜只有你自己能吃到。LangServe 就是帮你把这道菜变成一家餐厅的工具：

菜单 = 自动生成的 OpenAPI 文档，客人（调用方）知道有哪些接口

服务窗口 = /invoke、/stream、/batch 端点，客人按需下单

接待多位客人 = 异步并发处理多个请求

试菜区 = /playground 调试界面，上线前先自己尝一口

从此，你的好菜不再是私房菜，而是能对外营业的标准化餐厅。

1.2 部署方案概览#

方案	适用场景	优势	劣势
LangServe	快速将 Chain/Agent 发布为 API	一行代码发布；自动 Playground 和文档；内置流式	仅适用于 LangChain Runnable
原生 FastAPI	完全自定义接口逻辑	最大灵活性	需手动实现流式、序列化等
Docker + vLLM	自托管模型推理服务	高性能推理；GPU 复用	运维复杂；仅解决推理层
LangGraph Platform	生产级有状态 Agent	原生状态管理、人机协作	生态较新

学习提示
本章以 LangServe 为主线，兼顾 FastAPI 集成与 Docker 容器化。部署有状态多步 Agent 请参考 [[06_LangGraph入门]]。

2 LangServe 核心用法#

2.1 什么是 LangServe#

LangServe 是 LangChain 官方的部署库，基于 FastAPI 构建。核心能力：一行代码把任何 Runnable 变成 REST API。

LangServe 自动处理：序列化/反序列化、SSE 流式输出、Playground 调试界面、OpenAPI 文档、Pydantic Schema 推导。

1
# 安装 LangServe（服务端 + 客户端）
2
pip install "langserve[all]"
3
# 或分开安装：pip install "langserve[server]"  /  pip install "langserve[client]"

2.2 add_routes 核心函数#

参数	类型	说明
`app`	`FastAPI`	FastAPI 应用实例
`runnable`	`Runnable`	要发布的 Chain / Agent
`path`	`str`	路径前缀，如 `"/translate"` → `/translate/invoke`
`input_type`	`Type`	可选，覆盖自动推导的输入 Schema
`output_type`	`Type`	可选，覆盖自动推导的输出 Schema
`config_keys`	`List[str]`	允许客户端传递的 `RunnableConfig` 键
`per_req_config_modifier`	`Callable`	每次请求动态修改配置的回调
`enabled_endpoints`	`List[str]`	启用的端点列表

2.3 最简示例：发布一个翻译 Chain#

1
# pip install "langserve[all]" langchain-openai langchain-core
2

3
from fastapi import FastAPI
4
from langchain_openai import ChatOpenAI
5
from langchain_core.prompts import ChatPromptTemplate
6
from langchain_core.output_parsers import StrOutputParser
7
from langserve import add_routes
8

9
# 1. 构建 Chain
10
prompt = ChatPromptTemplate.from_messages([
11
    ("system", "你是一位专业翻译，请将用户输入的文本翻译成{target_language}。只输出翻译结果。"),
12
    ("human", "{text}"),
13
])
14
chain = prompt | ChatOpenAI(model="gpt-4o-mini", temperature=0) | StrOutputParser()
15

16
# 2. 创建 FastAPI 应用并一行发布
17
app = FastAPI(title="翻译服务", version="1.0")
18
add_routes(app, chain, path="/translate")
19

20
if __name__ == "__main__":
21
    import uvicorn
22
    uvicorn.run(app, host="0.0.0.0", port=8000)

启动后自动生成以下端点：

端点	方法	用途
`/translate/invoke`	POST	同步调用，等待完整输出
`/translate/batch`	POST	批量并行处理
`/translate/stream`	POST	SSE 逐 token 流式返回
`/translate/stream_log`	POST	流式返回含中间步骤的运行日志
`/translate/playground`	GET	可视化调试界面
`/translate/input_schema`	GET	输入 JSON Schema
`/translate/output_schema`	GET	输出 JSON Schema

学习提示
Playground 是 LangServe 最实用的功能之一。开发阶段可以快速测试 Chain，团队协作中也可以让非技术同事直接试用。

3 请求与响应格式#

3.1 invoke 端点#

1
curl -X POST http://localhost:8000/translate/invoke \
2
  -H "Content-Type: application/json" \
3
  -d '{"input": {"text": "LangChain is a framework for LLM apps.", "target_language": "中文"}, "config": {}}'

1
{
2
  "output": "LangChain 是一个用于构建大语言模型应用的框架。",
3
  "metadata": { "run_id": "a1b2c3d4-..." }
4
}

概念解析
所有端点的请求体都遵循 input + config + kwargs 三字段结构。input 格式与 Chain 的 input_schema 一致，config 用于传递 tags、metadata 等。

3.2 stream 端点（SSE）#

流式调用使用 Server-Sent Events 协议，服务器逐步推送 token：

1
event: data
2
data: {"content": "LangChain"}
3

4
event: data
5
data: {"content": " 是一个框架。"}
6

7
event: end

客户端实时拼接即可实现打字机效果。

3.3 客户端调用：RemoteRunnable#

RemoteRunnable 把远程 API 伪装成本地 Runnable，使用体验与本地 Chain 完全一致：

1
# pip install "langserve[client]"
2

3
from langserve import RemoteRunnable
4

5
translate = RemoteRunnable("http://localhost:8000/translate")
6

7
# 同步调用
8
result = translate.invoke({"text": "Hello world", "target_language": "中文"})
9

10
# 流式调用
11
for chunk in translate.stream({"text": "Hello", "target_language": "日语"}):
12
    print(chunk, end="", flush=True)
13

14
# 批量调用
15
results = translate.batch([
16
    {"text": "Hello", "target_language": "法语"},
17
    {"text": "Goodbye", "target_language": "法语"},
18
])
19

20
# 异步调用
21
result = await translate.ainvoke({"text": "Hi", "target_language": "中文"})

学习提示
RemoteRunnable 的最大好处是透明性——调用方无需知道 Chain 内部实现，也无需安装其依赖包，天然适合微服务架构。

4 FastAPI 深度集成#

4.1 添加自定义中间件（CORS、认证）#

1
# pip install "langserve[all]"
2

3
from fastapi import FastAPI, Request, HTTPException
4
from fastapi.middleware.cors import CORSMiddleware
5
from starlette.middleware.base import BaseHTTPMiddleware
6

7
app = FastAPI()
8

9
# CORS —— 生产环境务必指定具体域名
10
app.add_middleware(
11
    CORSMiddleware,
12
    allow_origins=["https://your-frontend.com"],
13
    allow_credentials=True,
14
    allow_methods=["*"],
15
    allow_headers=["*"],
16
)
17

18
# API Key 认证
19
API_KEYS = {"sk-abc123", "sk-def456"}
20

21
class APIKeyMiddleware(BaseHTTPMiddleware):
22
    async def dispatch(self, request: Request, call_next):
23
        if request.url.path.endswith("/playground") or request.url.path == "/docs":
24
            return await call_next(request)
25
        if request.headers.get("X-API-Key") not in API_KEYS:
26
            raise HTTPException(status_code=403, detail="Invalid API Key")
27
        return await call_next(request)
28

29
app.add_middleware(APIKeyMiddleware)

易错避坑
allow_origins=["*"] 在开发阶段方便，但生产环境必须指定具体域名，否则任何网站都能调用你的 API。

4.2 多 Chain 部署 + 自定义路由#

1
# pip install "langserve[all]" langchain-openai langchain-core
2

3
from fastapi import FastAPI
4
from langserve import add_routes
5

6
app = FastAPI(title="AI 工具集")
7

8
# 自定义路由
9
@app.get("/health")
10
async def health_check():
11
    return {"status": "healthy"}
12

13
# 多个 Chain 挂载到不同路径
14
add_routes(app, translate_chain, path="/translate")
15
add_routes(app, summarize_chain, path="/summarize")
16
add_routes(app, explain_chain, path="/explain-code")

4.3 依赖注入：per_req_config_modifier#

在多租户场景中，可以根据请求信息动态注入配置：

1
# pip install "langserve[all]"
2

3
from fastapi import Request
4
from langchain_core.runnables import RunnableConfig
5

6
def modify_config(config: RunnableConfig, request: Request) -> RunnableConfig:
7
    user_id = request.headers.get("X-User-Id", "anonymous")
8
    config["metadata"] = {**config.get("metadata", {}), "user_id": user_id}
9
    config["configurable"] = {**config.get("configurable", {}), "user_id": user_id}
10
    return config
11

12
add_routes(app, my_chain, path="/chat", per_req_config_modifier=modify_config)

概念解析
per_req_config_modifier 的典型用途：多租户隔离（按用户切换 API Key）、追踪溯源（将用户 ID 注入 LangSmith metadata）、动态配置（按请求切换模型版本）。

5 Docker 容器化部署#

5.1 Dockerfile（多阶段构建）#

1
# ============ 阶段 1：构建依赖 ============
2
FROM python:3.11-slim AS builder
3
WORKDIR /app
4
COPY requirements.txt .
5
RUN pip install --no-cache-dir --prefix=/install -r requirements.txt
6

7
# ============ 阶段 2：运行时 ============
8
FROM python:3.11-slim AS runtime
9
WORKDIR /app
10
COPY --from=builder /install /usr/local
11
COPY . .
12
RUN adduser --disabled-password --gecos '' appuser
13
USER appuser
14
EXPOSE 8000
15

16
HEALTHCHECK --interval=30s --timeout=5s --start-period=10s --retries=3 \
17
    CMD python -c "import urllib.request; urllib.request.urlopen('http://localhost:8000/health')" || exit 1
18

19
CMD ["uvicorn", "server:app", "--host", "0.0.0.0", "--port", "8000"]

5.2 docker-compose.yml（LangServe + Chroma + Ollama）#

1
version: "3.9"
2
services:
3
  langserve:
4
    build: .
5
    ports: ["8000:8000"]
6
    environment:
7
      - OPENAI_API_KEY=${OPENAI_API_KEY}
8
      - LANGSMITH_API_KEY=${LANGSMITH_API_KEY}
9
      - LANGSMITH_TRACING=true
10
      - LANGSMITH_PROJECT=my-langserve-app
11
      - CHROMA_HOST=chroma
12
      - OLLAMA_BASE_URL=http://ollama:11434
13
    depends_on:
14
      chroma: { condition: service_healthy }
15
    restart: unless-stopped
16
    healthcheck:
17
      test: ["CMD", "python", "-c",
18
             "import urllib.request; urllib.request.urlopen('http://localhost:8000/health')"]
19
      interval: 30s
20
      timeout: 5s
21
      retries: 3
22

23
  chroma:
24
    image: chromadb/chroma:0.5.23
25
    ports: ["8001:8000"]
26
    volumes: [chroma_data:/chroma/chroma]
27
    healthcheck:
28
      test: ["CMD", "curl", "-f", "http://localhost:8000/api/v1/heartbeat"]
29
      interval: 10s
30
      timeout: 5s
31
      retries: 5
32

33
  ollama:
34
    image: ollama/ollama:latest
35
    ports: ["11434:11434"]
36
    volumes: [ollama_data:/root/.ollama]
37
    deploy:
38
      resources:
39
        reservations:
40
          devices: [{ driver: nvidia, count: all, capabilities: [gpu] }]
41

42
volumes:
43
  chroma_data:
44
  ollama_data:

5.3 环境变量与密钥管理#

易错避坑
绝对不要将 API Key 硬编码在代码或 Dockerfile 中！

方式	适用环境	做法
`.env` 文件	开发	`docker compose --env-file .env up`（文件加入 `.gitignore`）
Docker Secrets	生产	`docker secret create` + 挂载到 `/run/secrets/`
云密钥服务	生产	AWS Secrets Manager / GCP Secret Manager

6 生产环境最佳实践#

6.1 Gunicorn + Uvicorn Workers#

1
# pip install gunicorn uvicorn
2
# workers 经验公式：(2 × CPU 核心数) + 1
3
gunicorn server:app \
4
    --workers 4 \
5
    --worker-class uvicorn.workers.UvicornWorker \
6
    --bind 0.0.0.0:8000 \
7
    --timeout 120 \
8
    --access-logfile -

6.2 LangSmith 生产监控#

参考 03_开发环境与LangSmith监控获取基础配置教程。

1
# pip install langsmith
2
import os
3
os.environ["LANGSMITH_TRACING"] = "true"
4
os.environ["LANGSMITH_API_KEY"] = "lsv2_your-key-here"
5
os.environ["LANGSMITH_PROJECT"] = "production-translate-service"

指标	说明	告警阈值建议
延迟	端到端响应时间	P95 > 10s
Token 用量	prompt + completion tokens	日消耗超预算
错误率	调用失败比例	> 5%
费用	基于 token 的 API 费用	日费用超阈值

6.3 错误处理与重试#

1
# pip install "langserve[all]" langchain-openai
2

3
# Runnable 内置容错：with_retry + with_fallbacks
4
chain_with_retry = chain.with_retry(
5
    retry_if_exception_type=(TimeoutError, ConnectionError),
6
    stop_after_attempt=3,
7
    wait_exponential_jitter=True,
8
)
9

10
fallback_chain = prompt | ChatOpenAI(model="gpt-4o-mini") | StrOutputParser()
11
chain_safe = chain_with_retry.with_fallbacks([fallback_chain])
12

13
add_routes(app, chain_safe, path="/translate")

概念解析

with_retry：同一 Chain 重试，适合暂时性错误（网络超时）

with_fallbacks：主 Chain 失败后切换备用 Chain，适合模型服务不可用

6.4 日志配置#

1
# pip install python-json-logger
2
import logging, sys
3
from pythonjsonlogger import jsonlogger
4

5
handler = logging.StreamHandler(sys.stdout)
6
handler.setFormatter(jsonlogger.JsonFormatter(
7
    fmt="%(asctime)s %(name)s %(levelname)s %(message)s"
8
))
9
logging.getLogger().addHandler(handler)
10
logging.getLogger().setLevel(logging.INFO)

6.5 安全清单#

安全措施	重要性	说明
HTTPS	必须	Nginx/Traefik 反向代理或云 HTTPS 终端
API Key 认证	必须	中间件或依赖注入验证身份
CORS 白名单	必须	限制允许的前端域名
速率限制	强烈推荐	`slowapi` 库，防止滥用
输入验证	强烈推荐	Pydantic `input_type` 限制长度和格式
非 root 运行	推荐	Docker 中创建专用用户
日志脱敏	推荐	不记录完整用户输入和 API Key
网络隔离	推荐	内部服务不暴露公网

1
# pip install slowapi pydantic "langserve[all]"
2

3
# 速率限制示例
4
from slowapi import Limiter
5
from slowapi.util import get_remote_address
6
limiter = Limiter(key_func=get_remote_address)
7

8
# 输入验证示例
9
from pydantic import BaseModel, Field, field_validator
10
class TranslateInput(BaseModel):
11
    text: str = Field(..., min_length=1, max_length=10000)
12
    target_language: str
13

14
    @field_validator("target_language")
15
    @classmethod
16
    def check_lang(cls, v):
17
        allowed = {"中文", "英文", "日语", "法语", "德语", "韩语"}
18
        if v not in allowed:
19
            raise ValueError(f"不支持: {v}，可选: {allowed}")
20
        return v
21

22
add_routes(app, chain, path="/translate", input_type=TranslateInput)

7 总结#

7.1 从开发到上线完整流程#

7.2 知识点自检表#

7.3 相关笔记#

01_LangChain概述与核心架构 — LangChain 生态全景，LangServe 在生态中的定位
[[06_LangGraph入门]] — 有状态 Agent 的编排与部署
01_大模型选择与私有化部署 — 底层推理服务的部署方案
03_开发环境与LangSmith监控 — LangSmith 基础配置与监控实践

LangServe 部署与生产实践

https://fuwari.vercel.app/posts/ai/llm/langchain/notes/07_deployment/01_langserve部署与生产实践/

作者

OopsYanxi

发布于

2026-04-24

许可协议

CC BY-NC-SA 4.0

LangServe 部署与生产实践 · 章节索引

LangChain 概览 · 章节索引