[Paper] 检索到的上下文如何塑造 RAG 中的内部表征
发布: (2026年2月24日 GMT+8 02:02)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.20091v1
Overview
检索增强生成(RAG)将大型语言模型(LLM)与外部文档检索器配对,使模型能够即时“查找”事实。虽然检索到的文本显然会影响最终答案,但我们仍然不知道它们是如何重塑模型内部隐藏状态的。本文深入研究这些隐藏表示,展示了检索文档的相关性和位置如何系统性地引导LLM的内部处理——这些变化还能预测生成答案的质量。
关键贡献
- 以表示为中心的分析,针对四个 QA 基准和三种流行的大语言模型(如 Llama‑2、Mistral、GPT‑3.5)进行 RAG 流水线评估。
- 受控实验,隔离单个相关文档与相关/不相关文档混合的影响,以及不同相关性比例的多文档集合的影响。
- 层级诊断,揭示哪些 Transformer 层对检索上下文最敏感,以及相关性如何在网络中传播。
- 相关性研究,将表示漂移(通过余弦距离、SVCCA 等度量)与下游生成指标(准确率、事实性、幻觉率)关联起来。
- 设计指南,用于构建更稳健的 RAG 系统,例如相关性感知加权和层级目标集成策略。
方法论
-
RAG 设置 – 作者将密集检索器(例如 DPR)接入三个现成的 LLM。对于每个查询,检索器返回以下任意一种结果:
- 单个文档(相关或刻意无关),或
- 一组 k 文档,且控制相关性比例(例如 100 % 相关,70 % 相关 + 30 % 噪声)。
-
表示提取 – 在每个 Transformer 层 在最终语言模型头之前 捕获隐藏状态。使用两种主要探针:
- 余弦相似度 与仅查询基线进行比较,量化“漂移”。
- SVCCA / CCA 用于比较不同条件下子空间的对齐程度。
-
行为度量 – 将相同输入送入完整的 RAG 流程,使用标准 QA 指标(Exact Match、F1)以及幻觉检测器对生成的答案进行评估。
-
分析流程 –
- 相关性影响: 比较检索到的文档真正相关与无关时的表示漂移。
- 层级敏感性: 绘制每层的漂移曲线,观察模型在何处“吸收”外部知识。
- 多文档交互: 衡量混入无关文档如何稀释或放大信号。
所有实验均可复现;代码和检查点已在 MIT 许可证下发布。
结果与发现
| 条件 | Avg. Representation Drift (Δ) | QA Accuracy ↑ | Hallucination ↓ |
|---|---|---|---|
| 相关单文档 | 0.42 | +12 % (vs. no‑retrieval) | –8 % |
| 不相关单文档 | 0.15 | –3 % | +5 % |
| 70 % 相关 / 30 % 噪声 (k=5) | 0.31 | +6 % | –3 % |
| 30 % 相关 / 70 % 噪声 (k=5) | 0.18 | –1 % | +4 % |
- 早期层 (1‑4) 相对稳定;它们主要对查询进行编码。
- 中高层 (6‑12) 显示出最大的漂移,尤其在检索到的文档相关时。这里是模型将外部事实与内部知识融合的地方。
- 不相关文档导致“噪声漂移”,在中间层达到峰值但很快消散,导致更高的幻觉率。
- 多文档集合表现为叠加效应:每个相关文档贡献一个比例性的偏移;然而,超过某个噪声阈值后,收益会饱和。
对中层表征进行简单的线性探测即可以 >80 % AUC 预测最终答案的正确性,证实内部状态变化是下游性能的强早期指示器。
实际影响
- Dynamic Retriever Scoring: 在 LLM 处理之前,根据相关性对检索到的文档加权,或提前剔除低相关文档,以避免污染中间层表征。
- Layer‑Targeted Fusion: 将检索到的上下文插入模型最易接受的层(例如 Llama‑2‑7B 的第 8 层),而不是仅在输入嵌入层进行融合。这样可以在不增加额外计算的情况下提升事实依据。
- Debugging RAG Pipelines: 实时监控表征漂移提供一种轻量级的健康检查——如果漂移保持低水平,说明检索器可能返回了不相关的材料,需要回退或重新查询。
- Fine‑tuning Strategies: 训练一个小型适配器,使模型的中间层子空间对“相关文档”模式进行对齐,从而提升系统对噪声检索的鲁棒性,减少生产聊天机器人中的幻觉。
- Evaluation Tooling: 已发布的分析脚本可以集成到 CI 流水线用于 QA 机器人,自动标记因检索导致的表征异常,防止部署。
Source: …
限制与未来工作
- 检索器质量依赖性: 实验使用了强大的密集检索器;使用稀疏或混合检索方法时结果可能会有所不同。
- 规模差距: 仅研究了参数规模最高约 13 B 的模型;尚不清楚这些发现如何外推到数百亿参数的大型语言模型。
- 任务范围: 本研究聚焦于抽取式问答;生成式任务(如开放式摘要)可能表现出不同的层次动态。
- 真实噪声: 合成的“无关”文档可能无法覆盖噪声网页数据的全部情况(例如矛盾的事实、对抗性内容)。
未来方向包括将分析扩展到多模态 RAG(如图文检索),探索基于强化学习的检索器‑LLM 联合训练,以及构建基于漂移的自动路由机制,以在查询时动态选择最佳的集成层。
作者
- Samuel Yeh
- Sharon Li
论文信息
- arXiv ID: 2602.20091v1
- 分类: cs.CL
- 发表时间: 2026年2月23日
- PDF: 下载 PDF