[Paper] 超越负向回滚:仅正向策略优化与隐式负梯度
发布: (2026年5月8日 GMT+8 01:55)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.06650v1
Overview
本文介绍了 Positive‑Only Policy Optimization (POPO),这是一种用于在推理任务上微调大型语言模型(LLMs)的可验证奖励强化学习(RLVR)新技术。POPO 完全舍弃负向 rollout,仅依赖“好”样本,从而简化了训练循环,同时仍能实现匹配或超越当前最先进的 Group Relative Policy Optimization(GRPO)的性能。
关键贡献
- 仅正学习框架 – 消除对显式负回滚的需求,使用对成功轨迹集合的有界重要性抽样。
- 隐式负梯度 – 证明通过强化正概率可以自然产生对不良行为的惩罚,从而无需单独的损失项。
- 带动量适应的孪生策略网络 – 通过保持策略的慢速移动副本并在共享表示空间中对齐它们,稳定策略更新。
- 有界相似性惩罚 – 用可处理的相似性项取代传统的 KL‑散度,直接作用于孪生嵌入。
- 在数学基准上的实证验证 – POPO 在使用 Qwen‑Math‑7B 的 AIME 2025 测试集上达到 36.67 %,超越 GRPO 的 30 %,并在其他难度层次上取得相匹配的结果。
- 广泛的消融实验 – 证实每个组件(重要性抽样界限、孪生架构、动量更新)都对鲁棒性和最终准确性有贡献。
方法论
- Rollout collection – 在每次训练迭代中,策略会生成一批完成(completions)。只有那些满足确定性验证器(例如,对数学题的正确答案)的完成会被保留为 positive rollouts(正向 rollout)。
- Bounded importance sampling – 对当前策略下每个正向 rollout 的概率进行重新加权,使用上限的 importance‑sampling 比率,以防止极端方差,同时仍然校正分布漂移。
- Siamese architecture – 维护策略网络的两个副本:正在更新的 online 策略以及通过动量规则缓慢演化的 target 策略(θ_target ← τ·θ_target + (1‑τ)·θ_online)。两者共享相同的编码器,但拥有独立的头部。
- Similarity penalty – 用有界距离(例如,截断到最大值的余弦相似度)代替 KL‑divergence,计算 online 与 target 嵌入之间的相似度惩罚,鼓励策略平滑变化。
- Optimization – 最终损失将(仅正向的)policy‑gradient 项与相似度惩罚相结合。梯度下降更新 online 策略;target 策略通过动量自动跟随。
关键洞见在于,通过 boosting 成功动作的概率,算法间接压低未见或不成功动作的概率,达到类似显式负梯度的效果,而无需实际采样负例。
结果与发现
| Model (7B) | 基准 | GRPO (%) | POPO (%) |
|---|---|---|---|
| Qwen‑Math | AIME 2025 | 30.00 | 36.67 |
| Qwen‑Math | AIME 2024 | 28.4 | 29.1 |
| Qwen‑Math | AIME 2023 | 27.9 | 27.9 |
- 在所有难度层级上均表现相当或更优,其中在最难的测试(AIME 2025)上提升最大。
- 稳定性——相较于普通 PPO/GRPO,使用 siamese‑momentum + 相似度惩罚的训练曲线振荡更小,方差更低。
- 消融实验——去除重要性抽样界限或相似度惩罚会导致性能下降约 4–5 个百分点,验证了它们的必要性。
- 样本效率——得益于聚焦的正向 rollout 集,POPO 在约 20 % 更少的环境交互下即可达到峰值性能。
实际影响
- 更简洁的流水线 – 无需为负样本设计或调优优势估计器;开发者可以将 POPO 直接嵌入现有的 RLHF 风格微调脚本,几乎不做改动。
- 降低计算浪费 – 通过提前丢弃负向回滚,GPU 只在真正对学习有贡献的轨迹上消耗算力,从而降低大规模语言模型的训练成本。
- 更好地处理稀疏二元奖励 – 对于成功率极低的任务(例如形式化证明生成、代码合成),正向偏置能够避免稀疏负样本导致的“信号稀释”问题。
- 更安全的策略更新 – 表征空间中的相似度惩罚提供了一种比 KL 更可解释且有界的策略漂移度量,这在合规性导向的部署中尤为有用。
- 可拓展到其他领域 – 同样的思路可以应用于机器人、游戏 AI 或任何能够通过确定性验证器标记成功的场景(例如代码生成的单元测试)。
限制与未来工作
- 对完美验证器的依赖 – POPO 假设奖励信号是确定性的、无噪声的;如果验证过程是嘈杂的或概率性的,可能会重新引入偏差。
- 探索受限 – 仅关注正例可能导致策略错过最初看似次优的创新策略;偶尔抽样负例的混合方案或许可以缓解这一问题。
- 向多模态任务的可扩展性 – 目前的实验局限于基于文本的数学推理;将其扩展到视觉‑语言或交互式环境仍是一个未解之题。
- 理论保证 – 虽然实证结果表现强劲,但对隐式负梯度机制的形式收敛性证明尚未给出。
未来的研究方向包括:引入考虑不确定性的验证器,将 POPO 与课程学习相结合以扩大探索范围,以及在超大规模的指令跟随模型(超出 Qwen 系列)上测试该框架。
作者
- Mingwei Xu
- Hao Fang
论文信息
- arXiv ID: 2605.06650v1
- 分类: cs.CL
- 出版日期: 2026年5月7日
- PDF: 下载 PDF