[Paper] 检索到的上下文如何塑造 RAG 中的内部表征

发布: 3天前 (2026年2月24日 GMT+8 02:02)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.20091v1

Overview

检索增强生成（RAG）将大型语言模型（LLM）与外部文档检索器配对，使模型能够即时“查找”事实。虽然检索到的文本显然会影响最终答案，但我们仍然不知道它们是如何重塑模型内部隐藏状态的。本文深入研究这些隐藏表示，展示了检索文档的相关性和位置如何系统性地引导LLM的内部处理——这些变化还能预测生成答案的质量。

关键贡献

以表示为中心的分析，针对四个 QA 基准和三种流行的大语言模型（如 Llama‑2、Mistral、GPT‑3.5）进行 RAG 流水线评估。
受控实验，隔离单个相关文档与相关/不相关文档混合的影响，以及不同相关性比例的多文档集合的影响。
层级诊断，揭示哪些 Transformer 层对检索上下文最敏感，以及相关性如何在网络中传播。
相关性研究，将表示漂移（通过余弦距离、SVCCA 等度量）与下游生成指标（准确率、事实性、幻觉率）关联起来。
设计指南，用于构建更稳健的 RAG 系统，例如相关性感知加权和层级目标集成策略。

方法论

RAG 设置 – 作者将密集检索器（例如 DPR）接入三个现成的 LLM。对于每个查询，检索器返回以下任意一种结果：
- 单个文档（相关或刻意无关），或
- 一组 k 文档，且控制相关性比例（例如 100 % 相关，70 % 相关 + 30 % 噪声）。
表示提取 – 在每个 Transformer 层 在最终语言模型头之前 捕获隐藏状态。使用两种主要探针：
- 余弦相似度 与仅查询基线进行比较，量化“漂移”。
- SVCCA / CCA 用于比较不同条件下子空间的对齐程度。
行为度量 – 将相同输入送入完整的 RAG 流程，使用标准 QA 指标（Exact Match、F1）以及幻觉检测器对生成的答案进行评估。
分析流程 –
- 相关性影响： 比较检索到的文档真正相关与无关时的表示漂移。
- 层级敏感性： 绘制每层的漂移曲线，观察模型在何处“吸收”外部知识。
- 多文档交互： 衡量混入无关文档如何稀释或放大信号。

所有实验均可复现；代码和检查点已在 MIT 许可证下发布。

结果与发现

条件	Avg. Representation Drift (Δ)	QA Accuracy ↑	Hallucination ↓
相关单文档	0.42	+12 % (vs. no‑retrieval)	–8 %
不相关单文档	0.15	–3 %	+5 %
70 % 相关 / 30 % 噪声 (k=5)	0.31	+6 %	–3 %
30 % 相关 / 70 % 噪声 (k=5)	0.18	–1 %	+4 %

早期层 (1‑4) 相对稳定；它们主要对查询进行编码。
中高层 (6‑12) 显示出最大的漂移，尤其在检索到的文档相关时。这里是模型将外部事实与内部知识融合的地方。
不相关文档导致“噪声漂移”，在中间层达到峰值但很快消散，导致更高的幻觉率。
多文档集合表现为叠加效应：每个相关文档贡献一个比例性的偏移；然而，超过某个噪声阈值后，收益会饱和。

对中层表征进行简单的线性探测即可以 >80 % AUC 预测最终答案的正确性，证实内部状态变化是下游性能的强早期指示器。

实际影响

Dynamic Retriever Scoring: 在 LLM 处理之前，根据相关性对检索到的文档加权，或提前剔除低相关文档，以避免污染中间层表征。
Layer‑Targeted Fusion: 将检索到的上下文插入模型最易接受的层（例如 Llama‑2‑7B 的第 8 层），而不是仅在输入嵌入层进行融合。这样可以在不增加额外计算的情况下提升事实依据。
Debugging RAG Pipelines: 实时监控表征漂移提供一种轻量级的健康检查——如果漂移保持低水平，说明检索器可能返回了不相关的材料，需要回退或重新查询。
Fine‑tuning Strategies: 训练一个小型适配器，使模型的中间层子空间对“相关文档”模式进行对齐，从而提升系统对噪声检索的鲁棒性，减少生产聊天机器人中的幻觉。
Evaluation Tooling: 已发布的分析脚本可以集成到 CI 流水线用于 QA 机器人，自动标记因检索导致的表征异常，防止部署。

Source: …

限制与未来工作

检索器质量依赖性： 实验使用了强大的密集检索器；使用稀疏或混合检索方法时结果可能会有所不同。
规模差距： 仅研究了参数规模最高约 13 B 的模型；尚不清楚这些发现如何外推到数百亿参数的大型语言模型。
任务范围： 本研究聚焦于抽取式问答；生成式任务（如开放式摘要）可能表现出不同的层次动态。
真实噪声： 合成的“无关”文档可能无法覆盖噪声网页数据的全部情况（例如矛盾的事实、对抗性内容）。

未来方向包括将分析扩展到多模态 RAG（如图文检索），探索基于强化学习的检索器‑LLM 联合训练，以及构建基于漂移的自动路由机制，以在查询时动态选择最佳的集成层。

作者

Samuel Yeh
Sharon Li

论文信息

arXiv ID: 2602.20091v1
分类: cs.CL
发表时间: 2026年2月23日
PDF: 下载 PDF

[Paper] 检索到的上下文如何塑造 RAG 中的内部表征

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] SumTablets：苏美尔泥板的音译数据集

[Paper] 改进推理语言模型中的参数化知识访问

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL