[Paper] 超越负向回滚：仅正向策略优化与隐式负梯度

发布: 3天前 (2026年5月8日 GMT+8 01:55)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06650v1

Overview

本文介绍了 Positive‑Only Policy Optimization (POPO)，这是一种用于在推理任务上微调大型语言模型（LLMs）的可验证奖励强化学习（RLVR）新技术。POPO 完全舍弃负向 rollout，仅依赖“好”样本，从而简化了训练循环，同时仍能实现匹配或超越当前最先进的 Group Relative Policy Optimization（GRPO）的性能。

关键贡献

仅正学习框架 – 消除对显式负回滚的需求，使用对成功轨迹集合的有界重要性抽样。
隐式负梯度 – 证明通过强化正概率可以自然产生对不良行为的惩罚，从而无需单独的损失项。
带动量适应的孪生策略网络 – 通过保持策略的慢速移动副本并在共享表示空间中对齐它们，稳定策略更新。
有界相似性惩罚 – 用可处理的相似性项取代传统的 KL‑散度，直接作用于孪生嵌入。
在数学基准上的实证验证 – POPO 在使用 Qwen‑Math‑7B 的 AIME 2025 测试集上达到 36.67 %，超越 GRPO 的 30 %，并在其他难度层次上取得相匹配的结果。
广泛的消融实验 – 证实每个组件（重要性抽样界限、孪生架构、动量更新）都对鲁棒性和最终准确性有贡献。

方法论

Rollout collection – 在每次训练迭代中，策略会生成一批完成（completions）。只有那些满足确定性验证器（例如，对数学题的正确答案）的完成会被保留为 positive rollouts（正向 rollout）。
Bounded importance sampling – 对当前策略下每个正向 rollout 的概率进行重新加权，使用上限的 importance‑sampling 比率，以防止极端方差，同时仍然校正分布漂移。
Siamese architecture – 维护策略网络的两个副本：正在更新的 online 策略以及通过动量规则缓慢演化的 target 策略（θ_target ← τ·θ_target + (1‑τ)·θ_online）。两者共享相同的编码器，但拥有独立的头部。
Similarity penalty – 用有界距离（例如，截断到最大值的余弦相似度）代替 KL‑divergence，计算 online 与 target 嵌入之间的相似度惩罚，鼓励策略平滑变化。
Optimization – 最终损失将（仅正向的）policy‑gradient 项与相似度惩罚相结合。梯度下降更新 online 策略；target 策略通过动量自动跟随。

关键洞见在于，通过 boosting 成功动作的概率，算法间接压低未见或不成功动作的概率，达到类似显式负梯度的效果，而无需实际采样负例。

结果与发现

Model (7B)	基准	GRPO (%)	POPO (%)
Qwen‑Math	AIME 2025	30.00	36.67
Qwen‑Math	AIME 2024	28.4	29.1
Qwen‑Math	AIME 2023	27.9	27.9

在所有难度层级上均表现相当或更优，其中在最难的测试（AIME 2025）上提升最大。
稳定性——相较于普通 PPO/GRPO，使用 siamese‑momentum + 相似度惩罚的训练曲线振荡更小，方差更低。
消融实验——去除重要性抽样界限或相似度惩罚会导致性能下降约 4–5 个百分点，验证了它们的必要性。
样本效率——得益于聚焦的正向 rollout 集，POPO 在约 20 % 更少的环境交互下即可达到峰值性能。

实际影响

更简洁的流水线 – 无需为负样本设计或调优优势估计器；开发者可以将 POPO 直接嵌入现有的 RLHF 风格微调脚本，几乎不做改动。
降低计算浪费 – 通过提前丢弃负向回滚，GPU 只在真正对学习有贡献的轨迹上消耗算力，从而降低大规模语言模型的训练成本。
更好地处理稀疏二元奖励 – 对于成功率极低的任务（例如形式化证明生成、代码合成），正向偏置能够避免稀疏负样本导致的“信号稀释”问题。
更安全的策略更新 – 表征空间中的相似度惩罚提供了一种比 KL 更可解释且有界的策略漂移度量，这在合规性导向的部署中尤为有用。
可拓展到其他领域 – 同样的思路可以应用于机器人、游戏 AI 或任何能够通过确定性验证器标记成功的场景（例如代码生成的单元测试）。

限制与未来工作

对完美验证器的依赖 – POPO 假设奖励信号是确定性的、无噪声的；如果验证过程是嘈杂的或概率性的，可能会重新引入偏差。
探索受限 – 仅关注正例可能导致策略错过最初看似次优的创新策略；偶尔抽样负例的混合方案或许可以缓解这一问题。
向多模态任务的可扩展性 – 目前的实验局限于基于文本的数学推理；将其扩展到视觉‑语言或交互式环境仍是一个未解之题。
理论保证 – 虽然实证结果表现强劲，但对隐式负梯度机制的形式收敛性证明尚未给出。

未来的研究方向包括：引入考虑不确定性的验证器，将 POPO 与课程学习相结合以扩大探索范围，以及在超大规模的指令跟随模型（超出 Qwen 系列）上测试该框架。

作者

Mingwei Xu
Hao Fang

论文信息

arXiv ID: 2605.06650v1
分类: cs.CL
出版日期: 2026年5月7日
PDF: 下载 PDF

[Paper] 超越负向回滚：仅正向策略优化与隐式负梯度

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] LLMs 改进 LLMs：Agentic Discovery 用于 Test-Time Scaling

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

[Paper] 不确定性感知的结构化数据提取：通过 Distilled LLMs 从完整 CMR 报告