[Paper] 事实性与透明性是 RAG 所需的一切!自解释对比证据重新排序
发布: (2025年12月5日 GMT+8 01:24)
7 min read
原文: arXiv
Source: arXiv - 2512.05012v1
概览
本文提出了 自解释对比证据重排序 (CER),这是一种让检索增强生成 (RAG) 系统更具事实性和透明性的新方法。通过对比学习重塑嵌入空间,并为每个检索到的段落附加 token 级别的归因理由,CER 强制检索器呈现真正的证据内容,同时将主观或误导性文本排除。作者在临床试验报告上展示了该方法,取得了检索准确率的提升以及幻觉生成的减少——这对安全关键的 AI 应用尤为重要。
关键贡献
- 使用自动挖掘的主观硬负例进行检索器嵌入的对比微调。
- 为每个检索到的段落生成 token 级别的归因理由,为开发者提供清晰、可解释的“为什么”。
- 证据对齐的嵌入空间,将事实解释聚类在一起,将误导性内容分离,从而提升下游 RAG 生成质量。
- 在临床试验语料库上的实证验证,展示了检索精度的可测提升以及幻觉输出的下降。
- 轻量级、即插即用的流水线,可在不进行大规模架构改动的情况下加入现有的检索‑生成堆栈。
方法论
-
数据准备与硬负例挖掘
- 作者首先收集文档集合(例如临床试验报告)。
- 对于每个查询,使用简单的主观性分类器自动挑选 主观 段落(如带有观点的语言、含糊表达)作为硬负例。
-
对比学习目标
- 对检索器的稠密嵌入进行对比损失微调:
- 正对 = 查询 ↔ 事实段落(高质量证据)。
- 负对 = 查询 ↔ 主观段落。
- 这会将事实证据拉近向量空间,同时将主观文本推远。
- 对检索器的稠密嵌入进行对比损失微调:
-
自解释归因
- 检索完成后,每个段落会通过轻量级归因模型(如基于梯度或注意力的模型)进行处理,突出显示对相关性得分负责的具体 token。
- 生成的 token 级热图与段落一起存储,提供人类可读的解释。
-
与 RAG 的集成
- 重新排序并带有注释的段落被送入生成器组件。由于检索到的上下文现在更具证据性且透明,生成器的输出更不易出现幻觉。
整个流水线可以以最小的代码改动嵌入现有 RAG 框架(如 Haystack、LangChain)。
结果与发现
| 指标 | 基线检索器 | CER 增强检索器 |
|---|---|---|
| Top‑5 检索准确率(临床试验) | 71.2 % | 78.9 % |
| 生成答案中的幻觉率 | 12.4 % | 6.7 % |
| 平均归因 F1(token 级) | — | 0.81 |
- 更高的检索精度:通过显式教会模型区分事实与主观内容,CER 提升了 top‑k 结果中真正相关段落的比例。
- 幻觉减少:当生成器接收到更干净、基于证据的上下文时,捏造不支持的陈述的可能性大幅下降。
- 透明的证据:token 级别的理由让开发者(以及终端用户)能够检查为何某段落被视为相关,这在受监管领域尤为关键。
实际意义
- 更安全的 AI 助手:在医疗、金融或法律咨询等场景中,内置的防幻觉护栏和可追溯证据能够提升系统可靠性。
- 调试与合规:token 级归因简化了检索流水线的审计,帮助满足监管要求,并快速定位模型决策的根源。
- 提升用户信任:向用户展示支持生成答案的具体证据,可在高风险环境中增强信心。
- 即插即用升级:已使用稠密检索器(如 FAISS、Milvus)的团队只需进行一次适度的微调和加入归因层,即可采用 CER,无需重构整个 RAG 堆栈。
- 改进下游训练:证据对齐的嵌入可复用于事实核查、摘要或引用生成等任务,使投资在多个产品间得到复用。
局限性与未来工作
- 领域特异性:当前实验聚焦于临床试验文本;在更为异构的语料(如新闻、代码)上的表现仍需验证。
- 主观性分类器的依赖:硬负例的质量取决于初始的主观性检测器,若未精心校准可能引入偏见。
- 归因的可扩展性:token 级理由会增加计算开销;在大规模实时系统中进行优化仍是一个开放挑战。
- 作者提出的未来方向包括:将 CER 拓展到多模态证据(表格、图形),探索自监督的主观性检测,及将该方法与 LLM 原生检索插件结合,实现更紧密的端到端训练。
作者
- Francielle Vargas
- Daniel Pedronette
论文信息
- arXiv ID: 2512.05012v1
- 分类: cs.CL
- 发表时间: 2025 年 12 月 4 日
- PDF: Download PDF