[Paper] 朝向可信的检索增强生成与稀疏自编码器

发布: (2025年12月10日 GMT+8 02:33)
7 min read
原文: arXiv

Source: arXiv - 2512.08892v1

概览

检索增强生成(RAG)通过将语言模型的回复基于外部文档来承诺更真实的输出,但它仍会出现幻觉——产生与检索证据相矛盾或超出证据范围的陈述。本文提出 RAGLens,一种轻量级检测器,利用模型自身的内部激活(通过稀疏自编码器)来捕捉这些不忠实的生成,提供更高的检测准确率和可读的人类解释。

主要贡献

  • 基于稀疏自编码器的特征提取: 展示如何将 LLM 的隐藏状态解耦为稀疏、可解释的特征,这些特征在 RAG 幻觉期间会特别激活。
  • RAGLens 检测器: 基于信息论特征选择和加性建模构建的紧凑、无需训练的幻觉检测器,性能优于已有基线。
  • 可解释性与事后缓解: 提供每个 token 的推理依据(哪些内部特征被触发),可用于编辑或拒绝不忠实的输出。
  • 实证验证: 在多种 RAG 设置(如 Retrieval‑Augmented GPT‑2、LLaMA‑2)上的基准实验表明,在保持推理开销极低的同时实现更高的精确率/召回率。
  • 开源发布: 完整代码、预训练自编码器和分析脚本已公开,以便复现。

方法论

  1. 收集激活快照: 作者在一组 RAG 提示上运行基础 LLM(例如 LLaMA‑2),记录多个 Transformer 层的隐藏状态激活,分别对应忠实输出和幻觉输出(通过小规模人工标注的验证集识别)。
  2. 训练稀疏自编码器(SAE): 对每一层,使用强稀疏惩罚的浅层自编码器学习压缩表示,使每个神经元对应的 特征 只在少数输入上激活。
  3. 基于互信息的特征选择: 计算每个 SAE 特征与二元幻觉标签之间的互信息,挑选跨层最具信息量的前 k 个特征。
  4. 加性特征建模: 使用简单的逻辑回归(或线性探针)将选中的特征组合,输出幻觉得分。由于特征稀疏且可解释,模型保持轻量(≈ 几百个参数)。
  5. RAGLens 推理: 测试时,LLM 处理新的 RAG 提示,SAE 对其激活进行编码,提取选定特征,线性探针标记输出是否忠实。同时报告被激活的特征作为推理依据。

结果与发现

指标(在保留的 RAG 基准上)RAGLens先前的 LLM‑基准评审微调的幻觉检测器
F1 分数0.840.710.78
精确率0.860.730.80
召回率0.820.690.77
推理开销(ms)12150(LLM 查询)35(小分类器)
  • 更高的检测质量,且计算成本仅为调用外部 LLM 评审的一小部分。
  • 可解释性: 在 > 70 % 的标记案例中,最高激活的特征对应具体的语言线索(如 “不支持的引用”、 “数值不匹配”)。
  • 层分布: 幻觉相关特征集中在中间的 Transformer 层(24 层模型的第 6‑9 层),暗示事实 grounding 在前向传播的早期阶段得到解决。

实际意义

  • 即插即用的安全层: 开发者可以将 RAGLens 附加到任何现有的 RAG 流水线(如 LangChain、检索问答机器人),无需重新训练底层 LLM,即可获得廉价的 “忠实性守护”。
  • 成本效益高的审核: 由于 RAGLens 在单 GPU 上约 10 ms 内完成推理,能够在高吞吐服务中扩展,而调用单独的 LLM 进行验证则成本高昂。
  • 调试与数据收集: 可解释的特征标记帮助工程师定位系统性失效模式(如缺失引用、数值错误),从而构建更好的检索语料库。
  • 细粒度控制: 通过公开触发标记的内部特征,下游系统可以决定是请求额外证据、重新排序检索文档,还是直接拒答。

局限性与未来工作

  • 依赖小规模标注种子集: 初始的忠实 vs. 幻觉输出标注是训练 SAE 与特征选择的前提;种子集质量直接影响检测性能。
  • 模型特定的编码器: SAE 需针对每层每模型单独训练;将已训练好的 RAGLens 从一个 LLM(如 LLaMA‑2)迁移到另一个(如 GPT‑4)仍需重新训练自编码器。
  • 幻觉类型范围: 本研究聚焦于事实矛盾和不支持的扩展;更细微的形式(如语气漂移、偏见框架)尚未覆盖。
  • 未来方向: 作者建议探索捕获更广泛不忠实性的多任务自编码器,并将 RAGLens 融入检索步骤本身(例如基于预测的幻觉风险对文档进行重新排序)。

RAGLens 证明,我们并不总是需要庞大的外部评审模型或海量标注数据来保持检索增强生成的诚实——有时模型自身的稀疏内部信号已经足够。

作者

  • Guangzhi Xiong
  • Zhenghao He
  • Bohan Liu
  • Sanchit Sinha
  • Aidong Zhang

论文信息

  • arXiv ID: 2512.08892v1
  • 分类: cs.CL, cs.AI
  • 发布日期: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »