[Paper] 限制幻觉:通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

发布: (2025年12月12日 GMT+8 22:50)
7 min read
原文: arXiv

Source: arXiv - 2512.11614v1

概览

检索增强生成(RAG)系统将检索组件与大型语言模型(LLM)结合,以生成基于外部文档的答案。然而,大多数现有流水线将检索到的文本视为“软提示”,而非可验证的证据,这会在上下文缺失或误导时导致幻觉。
论文 “Bounding Hallucinations: Information‑Theoretic Guarantees for RAG Systems via Merlin‑Arthur Protocols” 提出了一种新颖的训练方案,将整个 RAG 流程视为交互式证明系统,为生成器提供了一个原则性的方式:仅在证据真正支持其答案时 接受,否则 拒绝

关键贡献

  • 交互式证明式监督: 将 Merlin‑Arthur(M/A)协议适配到 RAG,其中生成器(Arthur)从有帮助的证据(Merlin)和对抗的、误导性的证据(Morgana)中学习。
  • 线性时间 XAI 钩子: 使用快速可解释性方法定位最具影响力的证据片段,并在训练期间让 Merlin/Morgana 实时编辑这些片段。
  • 解释信息分数(EIF): 一种新度量,将解释忠实度与原始预测误差分离,并将互信息保证相对于模型容量进行归一化。
  • 通过硬正例/负例提升检索器: 自动生成“硬”训练样本,提升召回率和平均倒数排名(MRR),无需人工标注不可回答的查询。
  • 实证验证: 在三个 RAG 基准和两类 LLM(小模型与大模型)上展示了在扎根性、完整性、可靠性以及拒答行为上的一致提升。

方法论

  1. 构建证明游戏

    • Arthur = LLM 生成器。
    • Merlin = 提供正确证据片段的帮助者。
    • Morgana = 注入错误或无关片段的对手。
  2. 证据聚焦 XAI

    • 采用轻量级归因技术(如基于梯度的 token 重要性),线性时间识别对 Arthur 答案影响最大的检索段落。
    • Merlin 可以用更支持的文本替换低影响力 token;Morgana 则可以破坏高影响力 token,生成“硬”负例。
  3. 训练循环

    • Arthur 接收一个来源未知的问题以及混合的证据(部分来自 Merlin,部分来自 Morgana)。
    • 训练目标为:
      a) 回答 当证据整体支持正确答案时。
      b) 拒绝(输出 “I don’t know”)当证据不足或相互矛盾时。
      c) 依据 XAI 模块识别的精确证据片段对答案进行扎根。
  4. 评估框架

    • 标准 RAG 指标(准确率、召回率、MRR)与 EIF 结合使用,后者量化问题、证据与答案之间的互信息有多少被模型的归因图解释。

结果与发现

数据集 / 模型基线 RAGM/A 训练的 RAG
HotpotQA(基于 BERT)扎根度 68 %78 %(+10 pp)
NaturalQuestions(GPT‑2)拒答率(不可回答) 22 %35 %(+13 pp)
FiQA(LLaMA‑7B)MRR 0.410.48(+0.07)
检索器召回率71 %78 %(+7 pp)
解释信息分数(EIF)0.420.58(+0.16)
  • 降低幻觉: 所有基准上答案与提供证据相矛盾的比例下降约 30 %。
  • 更好的拒答行为: 当证据模糊时模型学会说 “I don’t know”,这一能力以前需要手工构造不可回答示例。
  • 检索器提升: 通过自动生成的硬正例/负例,检索器的 top‑k 召回率在不增加标注成本的情况下得到提升。

实际意义

  • 更可信的助理: 开发聊天机器人、代码助理或知识库问答时,系统能够在源材料不足时拒绝回答,降低误信息风险。
  • 零样本不可回答检测: 无需准备单独的“不可回答”数据集;M/A 框架可即时生成对抗样本,节省标注时间与成本。
  • 即插即用的检索器升级: 现有检索器可通过自动生成的硬样本进行微调,立即获得召回率提升。
  • 可解释性驱动的调试: 由于答案绑定到具体证据片段,开发者可以在 UI 中展示这些片段,便于审计和调试模型行为。
  • 适配不同模型规模: 该方法对约 300 M 的小模型和约 7 B 的大模型均有效,创业公司和企业都能在无需巨额算力的前提下采用。

局限性与未来工作

  • 线性时间 XAI 近似: 归因方法为换取速度牺牲了一部分忠实度;更精确(但更慢)的解释器可能进一步收紧 EIF 上界。
  • 基准范围: 实验仅覆盖英文 QA 数据集,跨语言或多模态检索(如图像、表格)尚未验证。
  • 证明系统开销: 对抗训练循环在每个 epoch 增加额外计算,对极大模型可能需要分布式训练技巧才能可行。
  • 理论保证 vs 真实噪声: 信息论保证假设检索分布良好;噪声较大的 Web 规模语料库可能削弱可靠性保证。

未来方向 包括将 M/A 协议扩展到多模态检索、集成更强的归因方法,以及探索课程学习——随着 Arthur 的提升,逐步提升 Morgana 攻击的难度。

作者

  • Björn Deiseroth
  • Max Henning Höth
  • Kristian Kersting
  • Letitia Parcalabescu

论文信息

  • arXiv ID: 2512.11614v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发布日期: 2025 年 12 月 12 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »