[Paper] 无奖励对齐用于冲突目标

发布: 1天前 (2026年2月3日 GMT+8 02:59)

8 min read

原文: arXiv

Source: arXiv - 2602.02495v1

概述

本文介绍了 Reward‑free Alignment for Conflicting Objectives (RACO)，这是一种在存在多个相互冲突的用户偏好（例如“有帮助” vs. “安全”）时微调大型语言模型（LLM）的新方法。RACO 不需要为每个目标单独构建奖励模型，而是直接使用原始的成对偏好数据，并通过剪切的、回避冲突的优化器来解决梯度冲突。作者证明该方法收敛到合理的折衷（Pareto‑critical 点），并在真实的 LLM 系列上实证表明其优于现有的多目标对齐基线。

关键贡献

无奖励框架：仅使用成对的人类偏好对大型语言模型进行对齐，消除为每个目标手工构建奖励模型的需求。
冲突规避梯度下降（CAGD）与裁剪：一种新颖的优化器，能够检测并裁剪冲突的梯度分量，确保在遵循用户指定的目标权重的情况下收敛到Pareto临界解。
理论保证：证明了收敛到Pareto临界点，并且由于裁剪机制，在双目标情形下可实现可证明的加速。
实用启发式方法：改进（例如动态权重调整、梯度归一化），使该方法在不同模型规模和数据集上都具备鲁棒性。
广泛的实证验证：在 Qwen‑3、Llama‑3 和 Gemma‑3 上进行的多目标摘要和安全对齐实验表明，与加权损失和现有多目标基线相比，能够实现更优的Pareto前沿覆盖。

方法论

数据收集 – 人类标注者提供模型输出的成对比较（例如，“输出 A 比 B 更有帮助，但安全性较低”）。不需要标量奖励分数。
梯度计算 – 对于每个目标（有帮助性、安全性等），模型根据相应的偏好对计算损失梯度。
冲突检测 – 检查梯度的负余弦相似度（即它们指向相反方向）。
裁剪冲突规避梯度下降（Clipped Conflict‑Averse GD） – 当检测到冲突时，将冲突的梯度分量裁剪（设为零）后再进行聚合，确保更新永远不会使模型远离任何加权目标。聚合后的更新遵循用户指定的权重向量 w（例如，0.7 有帮助性，0.3 安全性）。
迭代微调 – 使用裁剪并加权后的梯度更新模型，过程循环进行，直至收敛到帕累托临界点（不存在可行方向能够同时提升所有加权目标）。

该方法是“无奖励”（reward‑free）的，因为它从不将偏好转换为标量奖励；而是直接利用人类最容易提供的相对信息。

结果与发现

任务	模型	基线（加权损失）	RACO（含启发式）	Pareto‑front 改进
多目标摘要（有用性 vs. 事实性）	Llama‑3 8B	0.71/0.68 (BLEU / factuality)	0.78 / 0.75	+9% 平均
安全对齐（无害性 vs. 有用性）	Qwen‑3 7B	0.62 / 0.80	0.70 / 0.86	+13%（无害性）
混合目标基准（3 个目标）	Gemma‑3 2.8B	0.55 / 0.73 / 0.68	0.62 / 0.78 / 0.74	+12% 整体

收敛性：RACO 在约 30% 更少的 epoch 中达到 Pareto‑critical 点，相比加权损失基线。
稳定性：梯度裁剪消除了在朴素多目标训练中出现的“振荡”，使损失曲线更平滑。
定性：人工评审报告称 RACO 调优的输出更好地遵循预期的权衡（例如，在不牺牲相关性的前提下提供更安全的答案）。

实际影响

简化的流水线 – 团队可以跳过为每个对齐目标单独训练奖励模型的高成本步骤，从而降低工程开销并减少潜在的奖励游戏漏洞。
细粒度控制 – 通过调整权重向量 w，产品经理可以将模型引导至不同的运行点（例如，对医疗建议更为谨慎，对创意聊天更具表现力）。
可扩展至多目标 – 剪裁机制不受目标数量影响，使得将大型语言模型对齐到复杂的政策套件（隐私、偏见、延迟等）成为可能。
更好的安全‑效用平衡 – 对于在受监管领域部署 LLM 的开发者，RACO 提供了一种可证明的方法，防止安全指标被更大的效用信号“冲淡”。
开源友好 – 该方法仅依赖偏好数据，可通过现有标注平台收集，这对开源模型社区具有吸引力。

限制与未来工作

偏好质量 – RACO 的性能依赖于高质量、无偏的成对数据；噪声或矛盾的标注仍可能削弱帕累托前沿。
剪切的可扩展性 – 虽然每一步的剪切操作成本低，但冲突检测成本随目标数量线性增长，可能在 >10 个目标时成为瓶颈。
理论范围 – 收敛性保证已在平滑、类凸的损失曲面以及双目标情形下得到证明；将证明扩展到高度非凸的 LLM 损失表面仍是未解之题。
未来方向 – 作者提出 (1) 自适应剪切阈值，(2) 与人类反馈强化学习 (RLHF) 循环的集成，(3) 探索层次化目标结构，其中某些目标支配其他目标。

RACO 展示了在无需单独奖励模型的沉重机制下，仍然可以将强大的语言模型对齐到多个有时相互冲突的用户期望。对于构建负责任 AI 产品的开发者而言，这可能成为在真实部署中实现可靠、可调节权衡的首选技术。

作者

Peter Chen
Xiaopeng Li
Xi Chen
Tianyi Lin

论文信息

arXiv ID: 2602.02495v1
分类: cs.CL, cs.AI, cs.LG
出版日期: 2026年2月2日
PDF: 下载 PDF

[Paper] 无奖励对齐用于冲突目标

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] RLAnything：在完全动态的 RL 系统中打造环境、策略和奖励模型

[Paper] RE-TRAC：递归轨迹压缩用于深度搜索代理

[Paper] MemSkill：学习与进化记忆技能以实现自我进化的智能体

[Paper] SPARKLING：在宽度渐进学习中平衡信号保留与对称性破坏