[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性

发布: 1个月前 (2026年1月8日 GMT+8 01:45)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.04131v1

概述

大型语言模型（LLMs）擅长回忆在预训练期间学到的事实，但当要求模型使用最新的外部证据来回答且这些证据与其内部知识相冲突时，这一优势可能变成负担。 论文 ContextFocus: Activation Steering for Contextual Faithfulness in Large Language Models 提出了一种轻量级、仅在推理阶段使用的技术，它将模型的隐藏激活向检索到的上下文倾斜，显著降低“幻觉”现象，而无需昂贵的微调。

关键贡献

Activation‑steering mechanism (ContextFocus) 能够有选择地放大与提供的上下文对齐的神经元，同时抑制冲突的内部知识。
Zero‑fine‑tuning solution：该方法在推理时以插件形式工作，只需少量额外的前向传播且不修改模型权重。
Comprehensive benchmark evaluation 在 ConFiQA 上进行的全面基准评估，显示相较于 ContextDPO、COIECD 等强基线以及仅使用提示的方法都有一致的提升。
Demonstrated composability：ContextFocus 可与提示工程技术（如 chain‑of‑thought、retrieval‑augmented prompting）叠加使用，实现叠加式改进。
Scalability evidence：在参数规模从 7 B 到 70 B 的模型上进行的实验表明，随着模型规模的增长，该方法仍保持有效。

方法论

Context Retrieval – 外部知识源（例如搜索引擎或向量数据库）返回与用户查询相关的简短段落。
Activation Mask Generation – 将检索到的段落进行分词并一次性送入冻结的 LLM，以收集隐藏状态激活。一个轻量级分类器（在小的保留集上训练）预测哪些神经元是“上下文相关”的。
Steering at Inference – 当实际查询被处理时，模型的隐藏状态会与先前计算的掩码逐元素相乘，提升与上下文对齐的神经元，抑制那些可能出现的过时记忆事实。
Decoding – 在引导后的激活上进行标准解码（例如 nucleus sampling），生成最终答案。

所有步骤均在运行时完成；唯一学习的组件是微小的掩码预测器，可训练一次后在各任务间复用。

结果与发现

Model	Baseline (no steering)	ContextFocus	Δ 忠实度 ↑	Δ 流畅度 ↓
LLaMA‑7B	62.3 %	78.9 %	+16.6 pp	–0.3 pp
LLaMA‑13B	66.1 %	81.4 %	+15.3 pp	–0.2 pp
LLaMA‑70B	71.8 %	86.2 %	+14.4 pp	–0.1 pp

上下文忠实度（正确引用检索到的段落的答案比例）在不同模型规模上提升了 14–17 个百分点。
流畅度（通过困惑度和人工评分衡量）基本保持不变，说明引导并未降低语言质量。
与链式思考提示结合时，ContextFocus 还能额外提升约 3 个百分点，表明两者具有互补效应。
推理开销约为额外 5 % 的计算量，单张 A100 GPU 上延迟增加 <10 ms，远低于完整微调（后者可能需要数小时的训练时间）。

实际影响

检索增强应用（例如聊天助理、代码搜索机器人、事实核查工具）可以将 ContextFocus 作为即插即用模块集成，以在不重新训练底层大模型的情况下提升答案的可信度。
快速产品迭代：团队可以尝试新的知识库（新闻源、内部文档），并立即看到幻觉减少，加速上市时间。
成本效益合规：对事实准确性要求严格的行业（金融、医疗、法律）可以在保持推理预算低的同时满足监管标准。
边缘部署：由于该方法仅增加一个轻量级掩码和一次额外的前向传播，适用于推理优化硬件（如 NVIDIA Jetson、AWS Inferentia），在全模型微调不可行的情况下也能运行。

限制与未来工作

mask‑predictor 在一个适度的验证集上进行训练；其对高度领域特定词汇（例如生物医学术语）的泛化可能需要进一步微调。
ContextFocus 假设检索到的段落本身是准确的；如果外部来源噪声较大，指引可能会放大错误信息。
当前实现对相对较短的上下文（≤ 256 个标记）效果最佳；扩展到更长文档可能需要层次化掩码策略。
未来的研究方向包括：学习基于查询难度的动态掩码，将该方法扩展到多模态 LLM，以及探索将 mask predictor 与检索模型联合训练以实现端到端优化。

作者

Nikhil Anand
Shwetha Somasundaram
Anirudh Phukan
Apoorv Saxena
Koyel Mukherjee

论文信息

arXiv ID: 2601.04131v1
分类: cs.CL, cs.AI, cs.LG
出版日期: 2026年1月7日
PDF: 下载 PDF

[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑

[Paper] 我们能在执行机器学习代理之前进行预测吗？

[Paper] 自信的幻觉？通过邻域一致性诊断 LLM 真实性