[Paper] 无奖励对齐用于冲突目标

发布: (2026年2月3日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2602.02495v1

概述

本文介绍了 Reward‑free Alignment for Conflicting Objectives (RACO),这是一种在存在多个相互冲突的用户偏好(例如“有帮助” vs. “安全”)时微调大型语言模型(LLM)的新方法。RACO 不需要为每个目标单独构建奖励模型,而是直接使用原始的成对偏好数据,并通过剪切的、回避冲突的优化器来解决梯度冲突。作者证明该方法收敛到合理的折衷(Pareto‑critical 点),并在真实的 LLM 系列上实证表明其优于现有的多目标对齐基线。

关键贡献

  • 无奖励框架:仅使用成对的人类偏好对大型语言模型进行对齐,消除为每个目标手工构建奖励模型的需求。
  • 冲突规避梯度下降(CAGD)与裁剪:一种新颖的优化器,能够检测并裁剪冲突的梯度分量,确保在遵循用户指定的目标权重的情况下收敛到Pareto临界解。
  • 理论保证:证明了收敛到Pareto临界点,并且由于裁剪机制,在双目标情形下可实现可证明的加速。
  • 实用启发式方法:改进(例如动态权重调整、梯度归一化),使该方法在不同模型规模和数据集上都具备鲁棒性。
  • 广泛的实证验证:在 Qwen‑3、Llama‑3 和 Gemma‑3 上进行的多目标摘要和安全对齐实验表明,与加权损失和现有多目标基线相比,能够实现更优的Pareto前沿覆盖。

方法论

  1. 数据收集 – 人类标注者提供模型输出的成对比较(例如,“输出 A 比 B 更有帮助,但安全性较低”)。不需要标量奖励分数。
  2. 梯度计算 – 对于每个目标(有帮助性、安全性等),模型根据相应的偏好对计算损失梯度。
  3. 冲突检测 – 检查梯度的负余弦相似度(即它们指向相反方向)。
  4. 裁剪冲突规避梯度下降(Clipped Conflict‑Averse GD) – 当检测到冲突时,将冲突的梯度分量裁剪(设为零)后再进行聚合,确保更新永远不会使模型远离任何加权目标。聚合后的更新遵循用户指定的权重向量 w(例如,0.7 有帮助性,0.3 安全性)。
  5. 迭代微调 – 使用裁剪并加权后的梯度更新模型,过程循环进行,直至收敛到帕累托临界点(不存在可行方向能够同时提升所有加权目标)。

该方法是“无奖励”(reward‑free)的,因为它从不将偏好转换为标量奖励;而是直接利用人类最容易提供的相对信息。

结果与发现

任务模型基线(加权损失)RACO(含启发式)Pareto‑front 改进
多目标摘要(有用性 vs. 事实性)Llama‑3 8B0.71/0.68 (BLEU / factuality)0.78 / 0.75+9% 平均
安全对齐(无害性 vs. 有用性)Qwen‑3 7B0.62 / 0.800.70 / 0.86+13%(无害性)
混合目标基准(3 个目标)Gemma‑3 2.8B0.55 / 0.73 / 0.680.62 / 0.78 / 0.74+12% 整体
  • 收敛性:RACO 在约 30% 更少的 epoch 中达到 Pareto‑critical 点,相比加权损失基线。
  • 稳定性:梯度裁剪消除了在朴素多目标训练中出现的“振荡”,使损失曲线更平滑。
  • 定性:人工评审报告称 RACO 调优的输出更好地遵循预期的权衡(例如,在不牺牲相关性的前提下提供更安全的答案)。

实际影响

  • 简化的流水线 – 团队可以跳过为每个对齐目标单独训练奖励模型的高成本步骤,从而降低工程开销并减少潜在的奖励游戏漏洞。
  • 细粒度控制 – 通过调整权重向量 w,产品经理可以将模型引导至不同的运行点(例如,对医疗建议更为谨慎,对创意聊天更具表现力)。
  • 可扩展至多目标 – 剪裁机制不受目标数量影响,使得将大型语言模型对齐到复杂的政策套件(隐私、偏见、延迟等)成为可能。
  • 更好的安全‑效用平衡 – 对于在受监管领域部署 LLM 的开发者,RACO 提供了一种可证明的方法,防止安全指标被更大的效用信号“冲淡”。
  • 开源友好 – 该方法仅依赖偏好数据,可通过现有标注平台收集,这对开源模型社区具有吸引力。

限制与未来工作

  • 偏好质量 – RACO 的性能依赖于高质量、无偏的成对数据;噪声或矛盾的标注仍可能削弱帕累托前沿。
  • 剪切的可扩展性 – 虽然每一步的剪切操作成本低,但冲突检测成本随目标数量线性增长,可能在 >10 个目标时成为瓶颈。
  • 理论范围 – 收敛性保证已在平滑、类凸的损失曲面以及双目标情形下得到证明;将证明扩展到高度非凸的 LLM 损失表面仍是未解之题。
  • 未来方向 – 作者提出 (1) 自适应剪切阈值,(2) 与人类反馈强化学习 (RLHF) 循环的集成,(3) 探索层次化目标结构,其中某些目标支配其他目标。

RACO 展示了在无需单独奖励模型的沉重机制下,仍然可以将强大的语言模型对齐到多个有时相互冲突的用户期望。对于构建负责任 AI 产品的开发者而言,这可能成为在真实部署中实现可靠、可调节权衡的首选技术。

作者

  • Peter Chen
  • Xiaopeng Li
  • Xi Chen
  • Tianyi Lin

论文信息

  • arXiv ID: 2602.02495v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年2月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »