超越 Vanilla RAG:每位 AI 工程师必须了解的 7 种现代 RAG 架构

发布: (2025年12月11日 GMT+8 02:21)
9 min read
原文: Dev.to

Source: Dev.to

TL;DR
RAG 并未消亡——它正在进化。现代 AI 系统现在使用更智能、更专业的检索架构,以克服基础 “向量搜索 + LLM” 流水线的局限。你需要了解的七种关键类型是 Vanilla RAG、Self‑RAG、Corrective RAG、Graph RAG、Hybrid RAG、Agentic RAG 和 Multi‑Agent RAG。每一种都解决了传统检索的不同弱点,从幻觉控制到个性化再到多步推理。自适应 RAG、多跳 RAG、实时 RAG 等新变体也在不断涌现。RAG 的未来不在于取代旧方案,而在于为你要解决的问题选择合适的架构。

如果你常逛 AI Twitter(或它本周的别称),大概已经看到本季的热点观点:

“RAG 已死。”

啊,是的,和 2012 年宣称 “JavaScript 已死”、2018 年宣称 “Python 已死”、以及几乎每周都在说 “Google 已死” 的网络一样。

剧透:RAG 完全活着。
它并未死,只是正经历一次华丽的升级。检索增强生成(Retrieval‑Augmented Generation)已经进化,叠加了新能力,拥有了人格,甚至可能组建了团队。

把 Vanilla RAG 想象成那位只带一支铅笔上学的孩子……而 Multi‑Agent RAG 则是带着小队、笔记本、彩色规划本、三支备用铅笔以及五年职业规划的孩子。

在各行各业——从医学摘要到企业搜索——RAG 仍是实用 AI 系统的支柱。唯一的问题是:互联网的命名速度超过了我们的跟进能力。现在我们有 Self‑RAG、Corrective RAG、Graph‑RAG、Hybrid RAG、Agentic RAG、Multi‑Agent RAG ……基本上,只要能在 “RAG” 前面加个前缀,几乎一定有人写过论文。

如果你想更深入了解 “RAG” 真正的含义——它的起源、机制和使用场景——我已经写了一篇完整的博客文章,欢迎点击查看。

在本博客中,我们将把混乱简化。我们会逐一讲解每位 AI 工程师都应掌握的现代 RAG 架构,使用通俗的英文(不需要博士学位,也不需要冗长的理论堆砌)。

对于每一种,你将了解:

  • 它是什么
  • 它为何出现(它要解决的痛点)
  • 它的优势
  • 它的局限
  • 它在真实场景中的亮点

每个章节都会配上一张干净的架构示意图(这部分交给你来完成!),解释保持简洁、精准、适合初学者。

阅读完后,你不仅会明白 RAG 为什么没有死——更会理解它为何正在以前所未有的速度演进。

1. Vanilla RAG: “OG” 检索增强生成

在 AI 还未沉迷于代理、规划、自我反思等哲学爱好之前,Vanilla RAG 是最简单、最实用的检索增强生成形式。它就是大家最先接触的那条 “检索‑然后‑生成” 流水线。

把它想象成 Google Search + ChatGPT 的组合,但它的野心仅限于完成最基本的工作。

它是什么

Vanilla RAG 只做一件事,而且做得很可靠:

检索相关信息,并让模型使用这些信息来回答你的问题。

没有查询优化。没有代理相互争论。没有复杂循环。只有:“你提问,我检索,给你答案。”

如果把 RAG 架构比作员工,Vanilla RAG 就是那位严格按指令执行、从不即兴发挥的实习生。

为什么它会出现

大语言模型经常产生幻觉——大量的虚构内容。Vanilla RAG 作为第一个实用的解决方案被提出。通过让模型的回答基于检索到的文档,它迫使 LLM 依赖真实数据,而不是凭空想象。

它回答了早期行业的核心问题:

“我们如何阻止模型自信地编造东西?”

工作原理

Vanilla RAG 工作原理

  1. 用户提出问题。
  2. 系统将问题转换为向量嵌入。
  3. 向量数据库检索最相近的文本块。
  4. 将这些文本块传递给 LLM。
  5. LLM 仅依据检索到的上下文生成答案。

快速、可预测、易于理解。

优势

  • 非常快,延迟低。
  • 相比更复杂的系统运行成本低。
  • 实现极其简单。
  • 对于直接的事实查询表现良好。

局限

  • 对于冗长或多部分的问题表现不佳。
  • 检索可能出现“击中或错失”,尤其在数据集庞大或杂乱时。
  • 没有批判、反思或细化结果的能力。
  • 受限于 LLM 的上下文窗口大小。
  • 不能适配不同用户或查询风格。

只要你的使用场景保持简单,Vanilla RAG 就足够。但一旦出现复杂性,你会很快发现需要更具适应性和智能的方案。

2. Self‑RAG:会审视自身错误的 RAG

如果 Vanilla RAG 是只会完成任务的实习生,Self‑RAG 则是突然觉醒、开始自问 “等等…我做对了吗?” 的实习生。

Self‑RAG 引入了一个关键能力:

模型能够评估自身检索的质量以及自身答案的质量。

这相当于给你的 RAG 流水线装上了内置的批评者,检查检索文档是否相关、推理是否合理,是否需要重新检索。

它是什么

在 RAG 流水线中,LLM 不再是被动的。它会反思、批评并动态调整检索。LLM 可以自问:

  • “我检索到了正确的文档吗?”
  • “我需要再搜索一次吗?”
  • “这个文本块可信么?”
  • “我的答案是否真的与证据匹配?”

这把静态流水线转变为闭环反馈系统。

为什么它会出现

检索过程常常混乱。最高得分的 k 条文本块有时是垃圾或无关内容;模型有时会自信地给出根本不在文档中的答案。Self‑RAG 正是为了解决这些问题而诞生。

它让 RAG 流水线在数据集庞大或结构化程度低时更加可靠。模型不再盲目信任检索器,而是执行:

  • 检索评估
  • 答案核对
  • 幻觉检测
  • 自我纠正

简而言之,就是拥有良心的 RAG。

工作原理

Self‑RAG 工作原理

该架构与 Vanilla RAG 类似,但加入了循环:

  1. 检索文档。
  2. LLM 评估检索到的块的相关性和可信度。
  3. 若评估未通过,系统触发第二次检索(或重新排序)。
  4. LLM 生成答案后,再将答案与证据进行对比检查。
  5. 若发现不一致,循环重复,直至得到满意答案或达到最大迭代次数。

这种迭代过程能够降低幻觉并提升答案的忠实度,但会带来更高的延迟和计算开销。

Back to Blog

相关文章

阅读更多 »