超越 Vanilla RAG：每位 AI 工程师必须了解的 7 种现代 RAG 架构

发布: 1周前 (2025年12月11日 GMT+8 02:21)

9 min read

Source: Dev.to

TL;DR
RAG 并未消亡——它正在进化。现代 AI 系统现在使用更智能、更专业的检索架构，以克服基础 “向量搜索 + LLM” 流水线的局限。你需要了解的七种关键类型是 Vanilla RAG、Self‑RAG、Corrective RAG、Graph RAG、Hybrid RAG、Agentic RAG 和 Multi‑Agent RAG。每一种都解决了传统检索的不同弱点，从幻觉控制到个性化再到多步推理。自适应 RAG、多跳 RAG、实时 RAG 等新变体也在不断涌现。RAG 的未来不在于取代旧方案，而在于为你要解决的问题选择合适的架构。

如果你常逛 AI Twitter（或它本周的别称），大概已经看到本季的热点观点：

“RAG 已死。”

啊，是的，和 2012 年宣称 “JavaScript 已死”、2018 年宣称 “Python 已死”、以及几乎每周都在说 “Google 已死” 的网络一样。

剧透：RAG 完全活着。
它并未死，只是正经历一次华丽的升级。检索增强生成（Retrieval‑Augmented Generation）已经进化，叠加了新能力，拥有了人格，甚至可能组建了团队。

把 Vanilla RAG 想象成那位只带一支铅笔上学的孩子……而 Multi‑Agent RAG 则是带着小队、笔记本、彩色规划本、三支备用铅笔以及五年职业规划的孩子。

在各行各业——从医学摘要到企业搜索——RAG 仍是实用 AI 系统的支柱。唯一的问题是：互联网的命名速度超过了我们的跟进能力。现在我们有 Self‑RAG、Corrective RAG、Graph‑RAG、Hybrid RAG、Agentic RAG、Multi‑Agent RAG ……基本上，只要能在 “RAG” 前面加个前缀，几乎一定有人写过论文。

如果你想更深入了解 “RAG” 真正的含义——它的起源、机制和使用场景——我已经写了一篇完整的博客文章，欢迎点击查看。

在本博客中，我们将把混乱简化。我们会逐一讲解每位 AI 工程师都应掌握的现代 RAG 架构，使用通俗的英文（不需要博士学位，也不需要冗长的理论堆砌）。

对于每一种，你将了解：

它是什么
它为何出现（它要解决的痛点）
它的优势
它的局限
它在真实场景中的亮点

每个章节都会配上一张干净的架构示意图（这部分交给你来完成！），解释保持简洁、精准、适合初学者。

阅读完后，你不仅会明白 RAG 为什么没有死——更会理解它为何正在以前所未有的速度演进。

1. Vanilla RAG： “OG” 检索增强生成

在 AI 还未沉迷于代理、规划、自我反思等哲学爱好之前，Vanilla RAG 是最简单、最实用的检索增强生成形式。它就是大家最先接触的那条 “检索‑然后‑生成” 流水线。

把它想象成 Google Search + ChatGPT 的组合，但它的野心仅限于完成最基本的工作。

它是什么

Vanilla RAG 只做一件事，而且做得很可靠：

检索相关信息，并让模型使用这些信息来回答你的问题。

没有查询优化。没有代理相互争论。没有复杂循环。只有：“你提问，我检索，给你答案。”

如果把 RAG 架构比作员工，Vanilla RAG 就是那位严格按指令执行、从不即兴发挥的实习生。

为什么它会出现

大语言模型经常产生幻觉——大量的虚构内容。Vanilla RAG 作为第一个实用的解决方案被提出。通过让模型的回答基于检索到的文档，它迫使 LLM 依赖真实数据，而不是凭空想象。

它回答了早期行业的核心问题：

“我们如何阻止模型自信地编造东西？”

工作原理

Vanilla RAG 工作原理

用户提出问题。
系统将问题转换为向量嵌入。
向量数据库检索最相近的文本块。
将这些文本块传递给 LLM。
LLM 仅依据检索到的上下文生成答案。

快速、可预测、易于理解。

优势

非常快，延迟低。
相比更复杂的系统运行成本低。
实现极其简单。
对于直接的事实查询表现良好。

局限

对于冗长或多部分的问题表现不佳。
检索可能出现“击中或错失”，尤其在数据集庞大或杂乱时。
没有批判、反思或细化结果的能力。
受限于 LLM 的上下文窗口大小。
不能适配不同用户或查询风格。

只要你的使用场景保持简单，Vanilla RAG 就足够。但一旦出现复杂性，你会很快发现需要更具适应性和智能的方案。

2. Self‑RAG：会审视自身错误的 RAG

如果 Vanilla RAG 是只会完成任务的实习生，Self‑RAG 则是突然觉醒、开始自问 “等等…我做对了吗？” 的实习生。

Self‑RAG 引入了一个关键能力：

模型能够评估自身检索的质量以及自身答案的质量。

这相当于给你的 RAG 流水线装上了内置的批评者，检查检索文档是否相关、推理是否合理，是否需要重新检索。

它是什么

在 RAG 流水线中，LLM 不再是被动的。它会反思、批评并动态调整检索。LLM 可以自问：

“我检索到了正确的文档吗？”
“我需要再搜索一次吗？”
“这个文本块可信么？”
“我的答案是否真的与证据匹配？”

这把静态流水线转变为闭环反馈系统。

为什么它会出现

检索过程常常混乱。最高得分的 k 条文本块有时是垃圾或无关内容；模型有时会自信地给出根本不在文档中的答案。Self‑RAG 正是为了解决这些问题而诞生。

它让 RAG 流水线在数据集庞大或结构化程度低时更加可靠。模型不再盲目信任检索器，而是执行：

检索评估
答案核对
幻觉检测
自我纠正

简而言之，就是拥有良心的 RAG。

工作原理

Self‑RAG 工作原理

该架构与 Vanilla RAG 类似，但加入了循环：

检索文档。
LLM 评估检索到的块的相关性和可信度。
若评估未通过，系统触发第二次检索（或重新排序）。
LLM 生成答案后，再将答案与证据进行对比检查。
若发现不一致，循环重复，直至得到满意答案或达到最大迭代次数。

这种迭代过程能够降低幻觉并提升答案的忠实度，但会带来更高的延迟和计算开销。

超越 Vanilla RAG：每位 AI 工程师必须了解的 7 种现代 RAG 架构

1. Vanilla RAG： “OG” 检索增强生成

它是什么

为什么它会出现

工作原理

优势

局限

2. Self‑RAG：会审视自身错误的 RAG

它是什么

为什么它会出现

工作原理

相关文章

我们发现我们的网站在新加坡很慢，但在欧洲却很完美——原因如下

我把Game Boy放进ChatGPT（ChatGPT Apps）

使用 Microsoft Planner 的营销经理的一天

spaceorbust – 终端RPG，GitHub提交驱动太空文明