超越 Vanilla RAG:每位 AI 工程师必须了解的 7 种现代 RAG 架构
Source: Dev.to
TL;DR
RAG 并未消亡——它正在进化。现代 AI 系统现在使用更智能、更专业的检索架构,以克服基础 “向量搜索 + LLM” 流水线的局限。你需要了解的七种关键类型是 Vanilla RAG、Self‑RAG、Corrective RAG、Graph RAG、Hybrid RAG、Agentic RAG 和 Multi‑Agent RAG。每一种都解决了传统检索的不同弱点,从幻觉控制到个性化再到多步推理。自适应 RAG、多跳 RAG、实时 RAG 等新变体也在不断涌现。RAG 的未来不在于取代旧方案,而在于为你要解决的问题选择合适的架构。
如果你常逛 AI Twitter(或它本周的别称),大概已经看到本季的热点观点:
“RAG 已死。”
啊,是的,和 2012 年宣称 “JavaScript 已死”、2018 年宣称 “Python 已死”、以及几乎每周都在说 “Google 已死” 的网络一样。
剧透:RAG 完全活着。
它并未死,只是正经历一次华丽的升级。检索增强生成(Retrieval‑Augmented Generation)已经进化,叠加了新能力,拥有了人格,甚至可能组建了团队。
把 Vanilla RAG 想象成那位只带一支铅笔上学的孩子……而 Multi‑Agent RAG 则是带着小队、笔记本、彩色规划本、三支备用铅笔以及五年职业规划的孩子。
在各行各业——从医学摘要到企业搜索——RAG 仍是实用 AI 系统的支柱。唯一的问题是:互联网的命名速度超过了我们的跟进能力。现在我们有 Self‑RAG、Corrective RAG、Graph‑RAG、Hybrid RAG、Agentic RAG、Multi‑Agent RAG ……基本上,只要能在 “RAG” 前面加个前缀,几乎一定有人写过论文。
如果你想更深入了解 “RAG” 真正的含义——它的起源、机制和使用场景——我已经写了一篇完整的博客文章,欢迎点击查看。
在本博客中,我们将把混乱简化。我们会逐一讲解每位 AI 工程师都应掌握的现代 RAG 架构,使用通俗的英文(不需要博士学位,也不需要冗长的理论堆砌)。
对于每一种,你将了解:
- 它是什么
- 它为何出现(它要解决的痛点)
- 它的优势
- 它的局限
- 它在真实场景中的亮点
每个章节都会配上一张干净的架构示意图(这部分交给你来完成!),解释保持简洁、精准、适合初学者。
阅读完后,你不仅会明白 RAG 为什么没有死——更会理解它为何正在以前所未有的速度演进。
1. Vanilla RAG: “OG” 检索增强生成
在 AI 还未沉迷于代理、规划、自我反思等哲学爱好之前,Vanilla RAG 是最简单、最实用的检索增强生成形式。它就是大家最先接触的那条 “检索‑然后‑生成” 流水线。
把它想象成 Google Search + ChatGPT 的组合,但它的野心仅限于完成最基本的工作。
它是什么
Vanilla RAG 只做一件事,而且做得很可靠:
检索相关信息,并让模型使用这些信息来回答你的问题。
没有查询优化。没有代理相互争论。没有复杂循环。只有:“你提问,我检索,给你答案。”
如果把 RAG 架构比作员工,Vanilla RAG 就是那位严格按指令执行、从不即兴发挥的实习生。
为什么它会出现
大语言模型经常产生幻觉——大量的虚构内容。Vanilla RAG 作为第一个实用的解决方案被提出。通过让模型的回答基于检索到的文档,它迫使 LLM 依赖真实数据,而不是凭空想象。
它回答了早期行业的核心问题:
“我们如何阻止模型自信地编造东西?”
工作原理

- 用户提出问题。
- 系统将问题转换为向量嵌入。
- 向量数据库检索最相近的文本块。
- 将这些文本块传递给 LLM。
- LLM 仅依据检索到的上下文生成答案。
快速、可预测、易于理解。
优势
- 非常快,延迟低。
- 相比更复杂的系统运行成本低。
- 实现极其简单。
- 对于直接的事实查询表现良好。
局限
- 对于冗长或多部分的问题表现不佳。
- 检索可能出现“击中或错失”,尤其在数据集庞大或杂乱时。
- 没有批判、反思或细化结果的能力。
- 受限于 LLM 的上下文窗口大小。
- 不能适配不同用户或查询风格。
只要你的使用场景保持简单,Vanilla RAG 就足够。但一旦出现复杂性,你会很快发现需要更具适应性和智能的方案。
2. Self‑RAG:会审视自身错误的 RAG
如果 Vanilla RAG 是只会完成任务的实习生,Self‑RAG 则是突然觉醒、开始自问 “等等…我做对了吗?” 的实习生。
Self‑RAG 引入了一个关键能力:
模型能够评估自身检索的质量以及自身答案的质量。
这相当于给你的 RAG 流水线装上了内置的批评者,检查检索文档是否相关、推理是否合理,是否需要重新检索。
它是什么
在 RAG 流水线中,LLM 不再是被动的。它会反思、批评并动态调整检索。LLM 可以自问:
- “我检索到了正确的文档吗?”
- “我需要再搜索一次吗?”
- “这个文本块可信么?”
- “我的答案是否真的与证据匹配?”
这把静态流水线转变为闭环反馈系统。
为什么它会出现
检索过程常常混乱。最高得分的 k 条文本块有时是垃圾或无关内容;模型有时会自信地给出根本不在文档中的答案。Self‑RAG 正是为了解决这些问题而诞生。
它让 RAG 流水线在数据集庞大或结构化程度低时更加可靠。模型不再盲目信任检索器,而是执行:
- 检索评估
- 答案核对
- 幻觉检测
- 自我纠正
简而言之,就是拥有良心的 RAG。
工作原理

该架构与 Vanilla RAG 类似,但加入了循环:
- 检索文档。
- LLM 评估检索到的块的相关性和可信度。
- 若评估未通过,系统触发第二次检索(或重新排序)。
- LLM 生成答案后,再将答案与证据进行对比检查。
- 若发现不一致,循环重复,直至得到满意答案或达到最大迭代次数。
这种迭代过程能够降低幻觉并提升答案的忠实度,但会带来更高的延迟和计算开销。