[Paper] 正确性优化的残差激活透镜 (CORAL)：可转移且校准感知的推理时引导

发布: 3天前 (2026年2月6日 GMT+8 02:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06022v1

概述

本文提出了 CORAL (Correctness‑Optimized Residual Activation Lens)，一种轻量级的推理时技术，能够在不进行额外训练的情况下，引导大型语言模型（LLM）产生更准确且校准更好的答案。通过使用正则化的 MLP 探测模型的隐藏激活，CORAL 提取分布式的“正确性信号”，并利用这些信号来引导模型的最终预测，从而在多项选择题问答任务中实现显著的准确率和校准度提升。

关键贡献

推理时引导聚焦于实际正确性，而非代理目标（例如似然或奖励模型）。
权重衰减 MLP 探针，从内部激活中捕获分布式的正确性信息，避免依赖单一的“魔法神经元”。
模型无关且可迁移：相同的探针提升了三种不同的 7B 参数大语言模型，并在四个未见基准上实现了无需重新训练的泛化。
显著的实证提升——在域内测试中平均提升 +10 % 准确率并降低 –50 % 期望校准误差（ECE）；在域外基准上提升 +14 % 准确率并降低 –49 % ECE。
计算高效的解决方案：仅需通过一个小型探针网络进行少量前向传播，使其在生产推理流水线中实用。

方法论

收集激活快照 – 对于每个输入（一个多项选择题），记录基础大语言模型多个层的隐藏状态。
训练正则化探针 – 使用强 L2 正则化的浅层 MLP 在适度标记的数据集上进行训练，以预测给定答案选项是否正确，使用收集的激活作为特征。强正则化迫使探针依赖分布式模式，而不是记忆单个神经元。
推理时的残差引导 – 当模型处理新问题时，探针评估每个答案候选的激活快照并生成“正确性分数”。该分数作为残差加到模型原始 logits 上（在 softmax 之前），从而有效地重新排序，使得探针认为更可能正确的选项排名更高。
校准感知的调整 – 由于探针的输出已校准（使用交叉熵等合适的损失进行训练），得到的 logits 具备更好的置信度估计，降低了期望校准误差（ECE）。

整个流水线不需要对基础 LLM 进行梯度更新，只需对小型探针进行一次前向传播。

结果与发现

设置	准确率 Δ	ECE Δ
域内（用于探针训练的相同数据）– 三个 7B 模型	+10 % 平均	‑50 % 平均
域外（四个保留的 MCQA 基准）	+14 % 平均	‑49 % 平均

跨架构的一致性 – 相同的探针设计在三个不同的 7B 参数模型上均有效（例如 LLaMA‑7B、Falcon‑7B 和类似 OpenAI 的模型）。
可迁移性 – 在一个基准（例如 ARC‑Easy）上训练的探针仍能在完全不同的任务上（Math‑MC、HellaSwag）带来提升。
校准 – 预期校准误差大约下降了一半，这意味着模型的置信分数与实际正确性更加吻合。

作者将这些结果解释为正确性信息在众多隐藏单元中分布的证据，且正则化探针能够可靠地提取这些信息。

Practical Implications

Plug‑and‑play improvement：将 CORAL 部署为任何现有 LLM 推理服务的轻量包装器；无需微调或更改模型权重。
Cost‑effective scaling：由于探针体积极小（仅几百 KB），且推理仅增加极少的延迟，大规模 API 可以在不额外消耗 GPU 时长的情况下提升性能。
Better user experience：更低的 ECE 转化为更可信的置信度分数，这对依赖模型概率进行决策的下游系统（例如自动辅导、决策支持）至关重要。
Cross‑task robustness：团队可以在一个适度规模的内部 QA 数据集上训练单一探针，并在一系列下游 MCQA 基准上获益，从而减少任务特定数据收集的需求。
Safety & alignment：改进的校准有助于缓解过度自信的幻觉，这是指令微调 LLM 常见的失效模式。

限制与未来工作

范围仅限于多项选择问答 – 当前实验聚焦于 MCQA；将 CORAL 扩展到开放式生成或其他输出格式仍是一个未解之题。
探针训练数据需求 – 虽然需求不大，但该方法仍需一个标记的校准集；如果该集合规模过小或与领域不匹配，性能可能下降。
探针过拟合的潜在风险 – 即使使用强权重衰减，探针仍可能捕获数据集特有的怪癖，因此需要在真正未见过的领域进行系统评估。
作者提出的未来方向 包括：
1. 探索在多个层次上同时运行的层次化探针。
2. 将残差引导概念适配到 token 级别的生成。
3. 将 CORAL 与基于人类反馈的强化学习管道结合，以共同提升正确性和对齐度。

作者

Miranda Muqing Miao
Young‑Min Cho
Lyle Ungar

论文信息

arXiv ID: 2602.06022v1
分类: cs.LG, cs.AI
发表时间: 2026年2月5日
PDF: Download PDF

[Paper] 正确性优化的残差激活透镜 (CORAL)：可转移且校准感知的推理时引导

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同