[Paper] 关于基于代理的测试时对齐的拒绝准则

发布: 3周前 (2026年4月17日 GMT+8 23:20)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16146v1

概述

最近，Hammal、Zweigenbaum 和 Corro 的一篇论文研究了“代理式”测试时对齐在大型语言模型（LLMs）中的工作方式。作者展示了两种流行策略——隐式奖励和引导——在数学上是等价的，唯一的区别在于它们决定何时拒绝大模型的 token 的方式。作者认为常用的基于置信度的拒绝规则依据不足，并提出了一种保守置信赌注准则，在多个基准上始终实现更好的对齐效果。

关键贡献

统一的图模型视角：展示了隐式奖励和引导方法可以表示为从同一底层图模型采样，仅在拒绝分布上有所不同。
对基于置信度的拒绝的关键分析：表明原始置信度分数在模糊或多义输入时不可靠，导致对齐效果次优。
保守置信赌注准则：提出一种新的拒绝规则，将小型对齐模型的置信度视为赌注，仅在赌注足够“保守”时才接受。
实证验证：在多个数据集（如 XSum、CNN/DailyMail 和 WMT 翻译任务）上优于先前的基于代理的对齐技术。
开源实现：提供代码和可复现的脚本，便于社区立即采用。

方法论

问题设定
- 一个 大基模型（未对齐）自回归生成 token。
- 一个 小对齐代理（在少量对齐数据上训练）作为指导。
图模型形式化
- 隐式奖励和 nudging 都被视为 token 序列与二元 accept/reject 变量的联合分布。
- 唯一的区别在于 rejection distribution (p_{\text{rej}}(r_t|x_{<t}))。
对基于置信度的拒绝的批评
- 置信度取基模型的最大 softmax 概率。
- 作者展示了高置信度与歧义表述（例如 “bank” 与 “river bank”）同时出现的失败案例。
保守置信下注 (CCB) 标准
- 计算代理对其将要生成的 token 的置信度 (c_t)。
- 定义 bet (b_t = \lambda \cdot c_t)，其中 (\lambda \in (0,1]) 为安全系数。
- 当基模型的概率 (p_{\text{base}}(y_t|x_{<t}) < b_t) 时，拒绝基模型的 token。
- 这导致 更为谨慎 的回退到代理，仅在基模型真正不确定时才触发。
训练与推理
- 不需要对基模型进行额外微调；CCB 规则在推理时直接应用。
- 代理只需在一个小规模对齐语料上训练一次（例如 1 万条示例）。

结果与发现

数据集	指标 (↑ 越好)	隐式奖励	引导	CCB（提议）
XSum (ROUGE‑L)	23.1	22.4	22.7	24.0
CNN/DailyMail (BLEU)	27.5	26.8	27.0	28.3
WMT‑En‑De (BLEU)	31.2	30.5	30.8	32.1

统计显著性：改进在 (p < 0.01)（配对自助法）下显著。
消融实验：去除安全因子 (\lambda) 会使性能回落到引导基线，确认保守性的重要性。
定性分析：CCB 规则降低了幻觉并在摘要任务中保持事实一致性。

实际意义

Plug‑and‑play 对齐：开发者可以在任何已有的 LLM 部署中加入一个轻量级代理模型（几百 MB），无需对大模型进行再训练。
降低幻觉风险：仅在基础模型真正不确定时才调用代理，从而为下游应用（聊天机器人、摘要生成、翻译服务）提供更可靠的输出。
成本效益的扩展：代理模型可以在更廉价的硬件上运行（CPU 或低端 GPU），而基础模型仍在高性能加速器上运行，实现混合推理流水线。
安全与合规：保守的拒绝规则与监管机构对 AI 系统“护栏”的要求相契合，提供可调节的透明参数（(\lambda)）以控制风险。

限制与未来工作

代理大小与覆盖范围：非常小的代理可能缺乏词汇或领域知识，导致在专业场景中难以纠正基础模型的输出。
延迟开销：通过代理的额外前向传播会增加约 10–15 % 的推理延迟；优化批处理或模型蒸馏可能会缓解此问题。
动态 (\lambda) 选择：当前工作使用固定的安全因子；未来研究可以在每个 token 或每个任务上自适应学习 (\lambda)。
更广泛的评估：实验仅局限于英文摘要和翻译；将其扩展到多语言、代码生成或多模态任务仍是一个开放方向。

结论：通过将测试时对齐重新构造为一个简单、保守的投注游戏，作者提出的方法在理论上简洁、在实践中更优。对于希望在不进行昂贵再训练的情况下提升大语言模型输出安全性和事实性的开发者而言，保守置信投注准则提供了一个可直接使用的工具。

作者

Ayoub Hammal
Pierre Zweigenbaum
Caio Corro

论文信息

arXiv ID: 2604.16146v1
分类: cs.CL
发表时间: 2026年4月17日
PDF: 下载 PDF

[Paper] 关于基于代理的测试时对齐的拒绝准则

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] 没有普遍礼貌：跨语言、多模型研究礼貌对 LLMs 的影响（使用 PLUM Corpus）

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估