[Paper] 事实性与透明性是 RAG 所需的一切!自解释对比证据重新排序

发布: (2025年12月5日 GMT+8 01:24)
7 min read
原文: arXiv

Source: arXiv - 2512.05012v1

概览

本文提出了 自解释对比证据重排序 (CER),这是一种让检索增强生成 (RAG) 系统更具事实性和透明性的新方法。通过对比学习重塑嵌入空间,并为每个检索到的段落附加 token 级别的归因理由,CER 强制检索器呈现真正的证据内容,同时将主观或误导性文本排除。作者在临床试验报告上展示了该方法,取得了检索准确率的提升以及幻觉生成的减少——这对安全关键的 AI 应用尤为重要。

关键贡献

  • 使用自动挖掘的主观硬负例进行检索器嵌入的对比微调
  • 为每个检索到的段落生成 token 级别的归因理由,为开发者提供清晰、可解释的“为什么”。
  • 证据对齐的嵌入空间,将事实解释聚类在一起,将误导性内容分离,从而提升下游 RAG 生成质量。
  • 在临床试验语料库上的实证验证,展示了检索精度的可测提升以及幻觉输出的下降。
  • 轻量级、即插即用的流水线,可在不进行大规模架构改动的情况下加入现有的检索‑生成堆栈。

方法论

  1. 数据准备与硬负例挖掘

    • 作者首先收集文档集合(例如临床试验报告)。
    • 对于每个查询,使用简单的主观性分类器自动挑选 主观 段落(如带有观点的语言、含糊表达)作为硬负例。
  2. 对比学习目标

    • 对检索器的稠密嵌入进行对比损失微调:
      • 正对 = 查询 ↔ 事实段落(高质量证据)。
      • 负对 = 查询 ↔ 主观段落。
    • 这会将事实证据拉近向量空间,同时将主观文本推远。
  3. 自解释归因

    • 检索完成后,每个段落会通过轻量级归因模型(如基于梯度或注意力的模型)进行处理,突出显示对相关性得分负责的具体 token。
    • 生成的 token 级热图与段落一起存储,提供人类可读的解释。
  4. 与 RAG 的集成

    • 重新排序并带有注释的段落被送入生成器组件。由于检索到的上下文现在更具证据性且透明,生成器的输出更不易出现幻觉。

整个流水线可以以最小的代码改动嵌入现有 RAG 框架(如 Haystack、LangChain)。

结果与发现

指标基线检索器CER 增强检索器
Top‑5 检索准确率(临床试验)71.2 %78.9 %
生成答案中的幻觉率12.4 %6.7 %
平均归因 F1(token 级)0.81
  • 更高的检索精度:通过显式教会模型区分事实与主观内容,CER 提升了 top‑k 结果中真正相关段落的比例。
  • 幻觉减少:当生成器接收到更干净、基于证据的上下文时,捏造不支持的陈述的可能性大幅下降。
  • 透明的证据:token 级别的理由让开发者(以及终端用户)能够检查为何某段落被视为相关,这在受监管领域尤为关键。

实际意义

  • 更安全的 AI 助手:在医疗、金融或法律咨询等场景中,内置的防幻觉护栏和可追溯证据能够提升系统可靠性。
  • 调试与合规:token 级归因简化了检索流水线的审计,帮助满足监管要求,并快速定位模型决策的根源。
  • 提升用户信任:向用户展示支持生成答案的具体证据,可在高风险环境中增强信心。
  • 即插即用升级:已使用稠密检索器(如 FAISS、Milvus)的团队只需进行一次适度的微调和加入归因层,即可采用 CER,无需重构整个 RAG 堆栈。
  • 改进下游训练:证据对齐的嵌入可复用于事实核查、摘要或引用生成等任务,使投资在多个产品间得到复用。

局限性与未来工作

  • 领域特异性:当前实验聚焦于临床试验文本;在更为异构的语料(如新闻、代码)上的表现仍需验证。
  • 主观性分类器的依赖:硬负例的质量取决于初始的主观性检测器,若未精心校准可能引入偏见。
  • 归因的可扩展性:token 级理由会增加计算开销;在大规模实时系统中进行优化仍是一个开放挑战。
  • 作者提出的未来方向包括:将 CER 拓展到多模态证据(表格、图形),探索自监督的主观性检测,及将该方法与 LLM 原生检索插件结合,实现更紧密的端到端训练。

作者

  • Francielle Vargas
  • Daniel Pedronette

论文信息

  • arXiv ID: 2512.05012v1
  • 分类: cs.CL
  • 发表时间: 2025 年 12 月 4 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »