[Paper] GDPO:组奖励解耦归一化策略优化用于多奖励强化学习优化
发布: (2026年1月9日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2601.05242v1
概述
本文提出了 GDPO(Group reward‑Decoupled Normalization Policy Optimization),这是一种针对必须同时满足多个人类对齐偏好(例如正确性、格式、安全性)的 大语言模型(LLM)的新型强化学习(RL)算法。作者指出,常用的 Group Relative Policy Optimization(GRPO)在归一化过程中会使不同的奖励信号相互塌陷,导致学习稳定性下降和最终性能受损。GDPO 通过对每个奖励 独立 进行归一化,保留它们的相对大小,从而实现更可靠的多奖励训练。
关键贡献
- 问题诊断: 通过分析和实验证明 GRPO 的共享归一化导致不同奖励流收敛到相同的优势,从而削弱训练信号。
- GDPO 算法: 提出一种简单而有效的修改——对每个奖励进行解耦归一化,同时保留组策略更新的核心优势。
- 全面评估: 在三个多样化的 LLM 任务(工具调用、数学推理、代码推理)上将 GDPO 与 GRPO 进行基准比较,使用 正确性(准确率、错误率)和 约束(格式、长度)指标。
- 稳定性提升: 显示出显著更平滑的损失曲线和更少的早期训练崩溃,表明在大规模 RL 流水线中具有更高的鲁棒性。
- 开源潜力: 该方法兼容现有的 RL‑HF(基于人类反馈的强化学习)堆栈,仅需在优势归一化步骤进行更改。
方法论
-
多奖励设置:
- 每个训练示例接收一个标量奖励向量 (r = (r_1, r_2, \dots, r_K))(例如,事实正确性、响应长度、JSON 格式)。
- 总优势传统上通过聚合这些奖励,然后在批次上应用 单一 归一化(GRPO)来计算。
-
共享归一化的问题:
- 当奖励在尺度或分布上不同,共享的均值‑方差归一化会压缩它们的差异,使得得到的优势值在各组之间几乎相同。
- 这种 “优势崩塌” 削弱了梯度区分应优先考虑哪个奖励的能力。
-
GDPO 的解耦归一化:
- 对批次中的每个奖励维度 (k) 分别计算均值 (\mu_k) 和标准差 (\sigma_k)。
- 独立归一化每个优势分量:(\hat{A}_k = (A_k - \mu_k) / \sigma_k)。
- 将归一化后的分量(例如,加权求和)组合,得到用于策略梯度更新的最终优势。
-
训练循环:
- 其余的 RL 流程(轨迹收集、KL‑惩罚、PPO‑style 剪裁)保持不变,使 GDPO 成为现有代码库中 GRPO 的即插即用替代方案。
结果与发现
| 任务 | 指标 | GRPO | GDPO |
|---|---|---|---|
| 工具调用 | 正确性(Acc.) | 71.2 % | 78.9 % |
| 格式遵循 | 64.5 % | 73.1 % | |
| 数学推理 | 准确率 | 58.3 % | 66.7 % |
| 长度约束 | 61.0 % | 69.4 % | |
| 编码推理 | 无错误比例 | 45.8 % | 53.2 % |
| JSON 格式 | 52.1 % | 60.5 % |
- 训练稳定性: GDPO 的损失曲线出现的尖峰显著更少,几乎不出现发散,而 GRPO 在早期训练(尤其是编码任务)时会偶尔出现崩溃。
- 可推广性: 性能提升在奖励结构差异巨大的各类任务中均能保持,表明该方法并非针对特定任务。
- 消融实验: 移除每奖励的归一化(即恢复为共享归一化)会重现 GRPO 的性能下降,验证了核心假设。
实际意义
- 更好的多目标强化学习(RL)用于大语言模型(LLMs): 构建必须遵守格式约束(例如 JSON API)的聊天机器人、代码助手或代理的开发者,可以在不重新设计奖励工程的情况下实现更高的保真度。
- 即插即用升级: 由于 GDPO 只修改优势归一化步骤,它可以通过几行代码集成到流行的 RL‑HF 库(如
trl、trlx)中。 - 降低训练成本: 更稳定的梯度意味着更少的重启和更少的 GPU 浪费时间,这对大规模模型(70B+)尤为重要。
- 提升安全性与对齐性: 通过在保留安全相关奖励(有害性、偏见)信号的同时优化效用奖励,GDPO 有助于维持对齐保证,同时仍然提升性能。
- 自动奖励加权的潜力: 由于每个奖励保持其原始尺度,下游学习最优加权的方式(例如元学习)可以更可靠地运行。
限制与未来工作
- 奖励计数的可扩展性: 论文评估了最多三维奖励;极高维度的奖励向量可能会带来新的归一化挑战(例如奖励之间的协方差)。
- 权重选择: GDPO仍然需要手动为归一化优势分配权重;自动学习这些权重仍是一个未解决的问题。
- 理论保证: 虽然实证结果强劲,但尚未提供多奖励设置下解耦归一化的形式收敛性分析。
- 更广泛的基准: 未来工作可以在开放式生成任务(例如故事写作)上测试GDPO,这类任务的奖励定义更具主观性。
底线: GDPO 为任何使用多个可能冲突的奖励信号训练大型语言模型的人提供了低开销、高影响的改进——使多目标强化学习更加稳定且更有效。
作者
- Shih‑Yang Liu
- Xin Dong
- Ximing Lu
- Shizhe Diao
- Peter Belcak
- Mingjie Liu
- Min‑Hung Chen
- Hongxu Yin
- Yu‑Chiang Frank Wang
- Kwang‑Ting Cheng
- Yejin Choi
- Jan Kautz
- Pavlo Molchanov
Paper Information
- arXiv ID: 2601.05242v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: 2026年1月8日
- PDF: 下载 PDF