[Paper] 无奖励对齐用于冲突目标
发布: (2026年2月3日 GMT+8 02:59)
8 min read
原文: arXiv
Source: arXiv - 2602.02495v1
概述
本文介绍了 Reward‑free Alignment for Conflicting Objectives (RACO),这是一种在存在多个相互冲突的用户偏好(例如“有帮助” vs. “安全”)时微调大型语言模型(LLM)的新方法。RACO 不需要为每个目标单独构建奖励模型,而是直接使用原始的成对偏好数据,并通过剪切的、回避冲突的优化器来解决梯度冲突。作者证明该方法收敛到合理的折衷(Pareto‑critical 点),并在真实的 LLM 系列上实证表明其优于现有的多目标对齐基线。
关键贡献
- 无奖励框架:仅使用成对的人类偏好对大型语言模型进行对齐,消除为每个目标手工构建奖励模型的需求。
- 冲突规避梯度下降(CAGD)与裁剪:一种新颖的优化器,能够检测并裁剪冲突的梯度分量,确保在遵循用户指定的目标权重的情况下收敛到Pareto临界解。
- 理论保证:证明了收敛到Pareto临界点,并且由于裁剪机制,在双目标情形下可实现可证明的加速。
- 实用启发式方法:改进(例如动态权重调整、梯度归一化),使该方法在不同模型规模和数据集上都具备鲁棒性。
- 广泛的实证验证:在 Qwen‑3、Llama‑3 和 Gemma‑3 上进行的多目标摘要和安全对齐实验表明,与加权损失和现有多目标基线相比,能够实现更优的Pareto前沿覆盖。
方法论
- 数据收集 – 人类标注者提供模型输出的成对比较(例如,“输出 A 比 B 更有帮助,但安全性较低”)。不需要标量奖励分数。
- 梯度计算 – 对于每个目标(有帮助性、安全性等),模型根据相应的偏好对计算损失梯度。
- 冲突检测 – 检查梯度的负余弦相似度(即它们指向相反方向)。
- 裁剪冲突规避梯度下降(Clipped Conflict‑Averse GD) – 当检测到冲突时,将冲突的梯度分量裁剪(设为零)后再进行聚合,确保更新永远不会使模型远离任何加权目标。聚合后的更新遵循用户指定的权重向量 w(例如,0.7 有帮助性,0.3 安全性)。
- 迭代微调 – 使用裁剪并加权后的梯度更新模型,过程循环进行,直至收敛到帕累托临界点(不存在可行方向能够同时提升所有加权目标)。
该方法是“无奖励”(reward‑free)的,因为它从不将偏好转换为标量奖励;而是直接利用人类最容易提供的相对信息。
结果与发现
| 任务 | 模型 | 基线(加权损失) | RACO(含启发式) | Pareto‑front 改进 |
|---|---|---|---|---|
| 多目标摘要(有用性 vs. 事实性) | Llama‑3 8B | 0.71/0.68 (BLEU / factuality) | 0.78 / 0.75 | +9% 平均 |
| 安全对齐(无害性 vs. 有用性) | Qwen‑3 7B | 0.62 / 0.80 | 0.70 / 0.86 | +13%(无害性) |
| 混合目标基准(3 个目标) | Gemma‑3 2.8B | 0.55 / 0.73 / 0.68 | 0.62 / 0.78 / 0.74 | +12% 整体 |
- 收敛性:RACO 在约 30% 更少的 epoch 中达到 Pareto‑critical 点,相比加权损失基线。
- 稳定性:梯度裁剪消除了在朴素多目标训练中出现的“振荡”,使损失曲线更平滑。
- 定性:人工评审报告称 RACO 调优的输出更好地遵循预期的权衡(例如,在不牺牲相关性的前提下提供更安全的答案)。
实际影响
- 简化的流水线 – 团队可以跳过为每个对齐目标单独训练奖励模型的高成本步骤,从而降低工程开销并减少潜在的奖励游戏漏洞。
- 细粒度控制 – 通过调整权重向量 w,产品经理可以将模型引导至不同的运行点(例如,对医疗建议更为谨慎,对创意聊天更具表现力)。
- 可扩展至多目标 – 剪裁机制不受目标数量影响,使得将大型语言模型对齐到复杂的政策套件(隐私、偏见、延迟等)成为可能。
- 更好的安全‑效用平衡 – 对于在受监管领域部署 LLM 的开发者,RACO 提供了一种可证明的方法,防止安全指标被更大的效用信号“冲淡”。
- 开源友好 – 该方法仅依赖偏好数据,可通过现有标注平台收集,这对开源模型社区具有吸引力。
限制与未来工作
- 偏好质量 – RACO 的性能依赖于高质量、无偏的成对数据;噪声或矛盾的标注仍可能削弱帕累托前沿。
- 剪切的可扩展性 – 虽然每一步的剪切操作成本低,但冲突检测成本随目标数量线性增长,可能在 >10 个目标时成为瓶颈。
- 理论范围 – 收敛性保证已在平滑、类凸的损失曲面以及双目标情形下得到证明;将证明扩展到高度非凸的 LLM 损失表面仍是未解之题。
- 未来方向 – 作者提出 (1) 自适应剪切阈值,(2) 与人类反馈强化学习 (RLHF) 循环的集成,(3) 探索层次化目标结构,其中某些目标支配其他目标。
RACO 展示了在无需单独奖励模型的沉重机制下,仍然可以将强大的语言模型对齐到多个有时相互冲突的用户期望。对于构建负责任 AI 产品的开发者而言,这可能成为在真实部署中实现可靠、可调节权衡的首选技术。
作者
- Peter Chen
- Xiaopeng Li
- Xi Chen
- Tianyi Lin
论文信息
- arXiv ID: 2602.02495v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年2月2日
- PDF: 下载 PDF