从原型到生产：使用 FastAPI + ChromaDB 构建可靠的 RAG API

发布: 1天前 (2026年3月5日 GMT+8 13:06)

3 分钟阅读

原文: Dev.to

Source: Dev.to

为什么我超越了原型

原型可以回答文档中的问题。
生产系统还必须具备：

这种转变改变了我对每一层的设计方式。

文档处理层
- 多格式加载器（PDF/TXT/DOCX）
- 规范化和清洗
- 带重叠的分块策略以保持上下文连贯
- 为每个块添加元数据（来源、页码、chunk_id、时间戳）
向量存储层
- 持久化的 ChromaDB 集合
- 嵌入 + 索引流水线
- 相似度搜索 API
- 可选的 MMR‑式多样性检索
- 集合维护（计数、清空、按来源删除）
RAG 聊天机器人层
- 带编号来源块的上下文构建器
- 受控提示规则：
  - 仅从提供的上下文中作答
  - 如上下文不足则明确拒绝
  - 始终引用来源
- 基于检索距离的置信度估计
- 可选的对话历史支持
FastAPI 服务层
- POST /upload 用于导入 + 索引
- POST /query 用于有依据的问答
- GET /health 用于服务检查
- GET /documents 用于查看已索引数量
- POST /reload 用于重置操作

构建 RAG 很容易。
构建可靠的 RAG 才是真正的工程挑战。

如果你也将 RAG 系统投入生产，欢迎分享在你的部署中最关键的改进点。

Architecture of the RAG SYSTEM