[Paper] 正确性优化的残差激活透镜 (CORAL):可转移且校准感知的推理时引导

发布: (2026年2月6日 GMT+8 02:55)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06022v1

概述

本文提出了 CORAL (Correctness‑Optimized Residual Activation Lens),一种轻量级的推理时技术,能够在不进行额外训练的情况下,引导大型语言模型(LLM)产生更准确且校准更好的答案。通过使用正则化的 MLP 探测模型的隐藏激活,CORAL 提取分布式的“正确性信号”,并利用这些信号来引导模型的最终预测,从而在多项选择题问答任务中实现显著的准确率和校准度提升。

关键贡献

  • 推理时引导聚焦于实际正确性,而非代理目标(例如似然或奖励模型)。
  • 权重衰减 MLP 探针,从内部激活中捕获分布式的正确性信息,避免依赖单一的“魔法神经元”。
  • 模型无关且可迁移:相同的探针提升了三种不同的 7B 参数大语言模型,并在四个未见基准上实现了无需重新训练的泛化。
  • 显著的实证提升——在域内测试中平均提升 +10 % 准确率并降低 –50 % 期望校准误差(ECE);在域外基准上提升 +14 % 准确率并降低 –49 % ECE。
  • 计算高效的解决方案:仅需通过一个小型探针网络进行少量前向传播,使其在生产推理流水线中实用。

方法论

  1. 收集激活快照 – 对于每个输入(一个多项选择题),记录基础大语言模型多个层的隐藏状态。
  2. 训练正则化探针 – 使用强 L2 正则化的浅层 MLP 在适度标记的数据集上进行训练,以预测给定答案选项是否正确,使用收集的激活作为特征。强正则化迫使探针依赖分布式模式,而不是记忆单个神经元。
  3. 推理时的残差引导 – 当模型处理新问题时,探针评估每个答案候选的激活快照并生成“正确性分数”。该分数作为残差加到模型原始 logits 上(在 softmax 之前),从而有效地重新排序,使得探针认为更可能正确的选项排名更高。
  4. 校准感知的调整 – 由于探针的输出已校准(使用交叉熵等合适的损失进行训练),得到的 logits 具备更好的置信度估计,降低了期望校准误差(ECE)。

整个流水线不需要对基础 LLM 进行梯度更新,只需对小型探针进行一次前向传播。

结果与发现

设置准确率 ΔECE Δ
域内(用于探针训练的相同数据)– 三个 7B 模型+10 % 平均‑50 % 平均
域外(四个保留的 MCQA 基准)+14 % 平均‑49 % 平均
  • 跨架构的一致性 – 相同的探针设计在三个不同的 7B 参数模型上均有效(例如 LLaMA‑7B、Falcon‑7B 和类似 OpenAI 的模型)。
  • 可迁移性 – 在一个基准(例如 ARC‑Easy)上训练的探针仍能在完全不同的任务上(Math‑MC、HellaSwag)带来提升。
  • 校准 – 预期校准误差大约下降了一半,这意味着模型的置信分数与实际正确性更加吻合。

作者将这些结果解释为正确性信息在众多隐藏单元中分布的证据,且正则化探针能够可靠地提取这些信息。

Practical Implications

  • Plug‑and‑play improvement:将 CORAL 部署为任何现有 LLM 推理服务的轻量包装器;无需微调或更改模型权重。
  • Cost‑effective scaling:由于探针体积极小(仅几百 KB),且推理仅增加极少的延迟,大规模 API 可以在不额外消耗 GPU 时长的情况下提升性能。
  • Better user experience:更低的 ECE 转化为更可信的置信度分数,这对依赖模型概率进行决策的下游系统(例如自动辅导、决策支持)至关重要。
  • Cross‑task robustness:团队可以在一个适度规模的内部 QA 数据集上训练单一探针,并在一系列下游 MCQA 基准上获益,从而减少任务特定数据收集的需求。
  • Safety & alignment:改进的校准有助于缓解过度自信的幻觉,这是指令微调 LLM 常见的失效模式。

限制与未来工作

  • 范围仅限于多项选择问答 – 当前实验聚焦于 MCQA;将 CORAL 扩展到开放式生成或其他输出格式仍是一个未解之题。
  • 探针训练数据需求 – 虽然需求不大,但该方法仍需一个标记的校准集;如果该集合规模过小或与领域不匹配,性能可能下降。
  • 探针过拟合的潜在风险 – 即使使用强权重衰减,探针仍可能捕获数据集特有的怪癖,因此需要在真正未见过的领域进行系统评估。
  • 作者提出的未来方向 包括:
    1. 探索在多个层次上同时运行的层次化探针。
    2. 将残差引导概念适配到 token 级别的生成。
    3. 将 CORAL 与基于人类反馈的强化学习管道结合,以共同提升正确性和对齐度。

作者

  • Miranda Muqing Miao
  • Young‑Min Cho
  • Lyle Ungar

论文信息

  • arXiv ID: 2602.06022v1
  • 分类: cs.LG, cs.AI
  • 发表时间: 2026年2月5日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……