[Paper] 正确性优化的残差激活透镜 (CORAL):可转移且校准感知的推理时引导
发布: (2026年2月6日 GMT+8 02:55)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06022v1
概述
本文提出了 CORAL (Correctness‑Optimized Residual Activation Lens),一种轻量级的推理时技术,能够在不进行额外训练的情况下,引导大型语言模型(LLM)产生更准确且校准更好的答案。通过使用正则化的 MLP 探测模型的隐藏激活,CORAL 提取分布式的“正确性信号”,并利用这些信号来引导模型的最终预测,从而在多项选择题问答任务中实现显著的准确率和校准度提升。
关键贡献
- 推理时引导聚焦于实际正确性,而非代理目标(例如似然或奖励模型)。
- 权重衰减 MLP 探针,从内部激活中捕获分布式的正确性信息,避免依赖单一的“魔法神经元”。
- 模型无关且可迁移:相同的探针提升了三种不同的 7B 参数大语言模型,并在四个未见基准上实现了无需重新训练的泛化。
- 显著的实证提升——在域内测试中平均提升 +10 % 准确率并降低 –50 % 期望校准误差(ECE);在域外基准上提升 +14 % 准确率并降低 –49 % ECE。
- 计算高效的解决方案:仅需通过一个小型探针网络进行少量前向传播,使其在生产推理流水线中实用。
方法论
- 收集激活快照 – 对于每个输入(一个多项选择题),记录基础大语言模型多个层的隐藏状态。
- 训练正则化探针 – 使用强 L2 正则化的浅层 MLP 在适度标记的数据集上进行训练,以预测给定答案选项是否正确,使用收集的激活作为特征。强正则化迫使探针依赖分布式模式,而不是记忆单个神经元。
- 推理时的残差引导 – 当模型处理新问题时,探针评估每个答案候选的激活快照并生成“正确性分数”。该分数作为残差加到模型原始 logits 上(在 softmax 之前),从而有效地重新排序,使得探针认为更可能正确的选项排名更高。
- 校准感知的调整 – 由于探针的输出已校准(使用交叉熵等合适的损失进行训练),得到的 logits 具备更好的置信度估计,降低了期望校准误差(ECE)。
整个流水线不需要对基础 LLM 进行梯度更新,只需对小型探针进行一次前向传播。
结果与发现
| 设置 | 准确率 Δ | ECE Δ |
|---|---|---|
| 域内(用于探针训练的相同数据)– 三个 7B 模型 | +10 % 平均 | ‑50 % 平均 |
| 域外(四个保留的 MCQA 基准) | +14 % 平均 | ‑49 % 平均 |
- 跨架构的一致性 – 相同的探针设计在三个不同的 7B 参数模型上均有效(例如 LLaMA‑7B、Falcon‑7B 和类似 OpenAI 的模型)。
- 可迁移性 – 在一个基准(例如 ARC‑Easy)上训练的探针仍能在完全不同的任务上(Math‑MC、HellaSwag)带来提升。
- 校准 – 预期校准误差大约下降了一半,这意味着模型的置信分数与实际正确性更加吻合。
作者将这些结果解释为正确性信息在众多隐藏单元中分布的证据,且正则化探针能够可靠地提取这些信息。
Practical Implications
- Plug‑and‑play improvement:将 CORAL 部署为任何现有 LLM 推理服务的轻量包装器;无需微调或更改模型权重。
- Cost‑effective scaling:由于探针体积极小(仅几百 KB),且推理仅增加极少的延迟,大规模 API 可以在不额外消耗 GPU 时长的情况下提升性能。
- Better user experience:更低的 ECE 转化为更可信的置信度分数,这对依赖模型概率进行决策的下游系统(例如自动辅导、决策支持)至关重要。
- Cross‑task robustness:团队可以在一个适度规模的内部 QA 数据集上训练单一探针,并在一系列下游 MCQA 基准上获益,从而减少任务特定数据收集的需求。
- Safety & alignment:改进的校准有助于缓解过度自信的幻觉,这是指令微调 LLM 常见的失效模式。
限制与未来工作
- 范围仅限于多项选择问答 – 当前实验聚焦于 MCQA;将 CORAL 扩展到开放式生成或其他输出格式仍是一个未解之题。
- 探针训练数据需求 – 虽然需求不大,但该方法仍需一个标记的校准集;如果该集合规模过小或与领域不匹配,性能可能下降。
- 探针过拟合的潜在风险 – 即使使用强权重衰减,探针仍可能捕获数据集特有的怪癖,因此需要在真正未见过的领域进行系统评估。
- 作者提出的未来方向 包括:
- 探索在多个层次上同时运行的层次化探针。
- 将残差引导概念适配到 token 级别的生成。
- 将 CORAL 与基于人类反馈的强化学习管道结合,以共同提升正确性和对齐度。
作者
- Miranda Muqing Miao
- Young‑Min Cho
- Lyle Ungar
论文信息
- arXiv ID: 2602.06022v1
- 分类: cs.LG, cs.AI
- 发表时间: 2026年2月5日
- PDF: Download PDF