[Paper] 事实性与透明性是 RAG 所需的一切！自解释对比证据重新排序

发布: 5个月前 (2025年12月5日 GMT+8 01:24)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05012v1

概览

本文提出了 自解释对比证据重排序 (CER)，这是一种让检索增强生成 (RAG) 系统更具事实性和透明性的新方法。通过对比学习重塑嵌入空间，并为每个检索到的段落附加 token 级别的归因理由，CER 强制检索器呈现真正的证据内容，同时将主观或误导性文本排除。作者在临床试验报告上展示了该方法，取得了检索准确率的提升以及幻觉生成的减少——这对安全关键的 AI 应用尤为重要。

关键贡献

使用自动挖掘的主观硬负例进行检索器嵌入的对比微调。
为每个检索到的段落生成 token 级别的归因理由，为开发者提供清晰、可解释的“为什么”。
证据对齐的嵌入空间，将事实解释聚类在一起，将误导性内容分离，从而提升下游 RAG 生成质量。
在临床试验语料库上的实证验证，展示了检索精度的可测提升以及幻觉输出的下降。
轻量级、即插即用的流水线，可在不进行大规模架构改动的情况下加入现有的检索‑生成堆栈。

方法论

数据准备与硬负例挖掘
- 作者首先收集文档集合（例如临床试验报告）。
- 对于每个查询，使用简单的主观性分类器自动挑选主观段落（如带有观点的语言、含糊表达）作为硬负例。
对比学习目标
- 对检索器的稠密嵌入进行对比损失微调：
  - 正对 = 查询 ↔ 事实段落（高质量证据）。
  - 负对 = 查询 ↔ 主观段落。
- 这会将事实证据拉近向量空间，同时将主观文本推远。
自解释归因
- 检索完成后，每个段落会通过轻量级归因模型（如基于梯度或注意力的模型）进行处理，突出显示对相关性得分负责的具体 token。
- 生成的 token 级热图与段落一起存储，提供人类可读的解释。
与 RAG 的集成
- 重新排序并带有注释的段落被送入生成器组件。由于检索到的上下文现在更具证据性且透明，生成器的输出更不易出现幻觉。

整个流水线可以以最小的代码改动嵌入现有 RAG 框架（如 Haystack、LangChain）。

结果与发现

指标	基线检索器	CER 增强检索器
Top‑5 检索准确率（临床试验）	71.2 %	78.9 %
生成答案中的幻觉率	12.4 %	6.7 %
平均归因 F1（token 级）	—	0.81

更高的检索精度：通过显式教会模型区分事实与主观内容，CER 提升了 top‑k 结果中真正相关段落的比例。
幻觉减少：当生成器接收到更干净、基于证据的上下文时，捏造不支持的陈述的可能性大幅下降。
透明的证据：token 级别的理由让开发者（以及终端用户）能够检查为何某段落被视为相关，这在受监管领域尤为关键。

实际意义

更安全的 AI 助手：在医疗、金融或法律咨询等场景中，内置的防幻觉护栏和可追溯证据能够提升系统可靠性。
调试与合规：token 级归因简化了检索流水线的审计，帮助满足监管要求，并快速定位模型决策的根源。
提升用户信任：向用户展示支持生成答案的具体证据，可在高风险环境中增强信心。
即插即用升级：已使用稠密检索器（如 FAISS、Milvus）的团队只需进行一次适度的微调和加入归因层，即可采用 CER，无需重构整个 RAG 堆栈。
改进下游训练：证据对齐的嵌入可复用于事实核查、摘要或引用生成等任务，使投资在多个产品间得到复用。

局限性与未来工作

领域特异性：当前实验聚焦于临床试验文本；在更为异构的语料（如新闻、代码）上的表现仍需验证。
主观性分类器的依赖：硬负例的质量取决于初始的主观性检测器，若未精心校准可能引入偏见。
归因的可扩展性：token 级理由会增加计算开销；在大规模实时系统中进行优化仍是一个开放挑战。
作者提出的未来方向包括：将 CER 拓展到多模态证据（表格、图形），探索自监督的主观性检测，及将该方法与 LLM 原生检索插件结合，实现更紧密的端到端训练。

作者

Francielle Vargas
Daniel Pedronette

论文信息

arXiv ID: 2512.05012v1
分类: cs.CL
发表时间: 2025 年 12 月 4 日
PDF: Download PDF

[Paper] 事实性与透明性是 RAG 所需的一切！自解释对比证据重新排序

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[论文] 犯错是人之常情：通过 LLM 分析对已发表 AI 论文错误的系统量化