[Paper] 重新思考 LLM 强化学习中的 Trust Region

发布: (2026年2月5日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2602.04879v1

概述

微调大型语言模型(LLM)使用强化学习(RL)已成为使其与人类偏好保持一致的首选方法,而近端策略优化(PPO)是大多数商业流水线背后的主力算法。本文指出,经典的 PPO “比例裁剪”(ratio‑clipping)技巧在小动作空间中表现良好,但当动作空间膨胀到数万词汇的词表时会失效。作者提出了一种新变体——Divergence Proximal Policy Optimization (DP‑PPO)——直接约束真实的策略散度,而不是依赖噪声较大的单样本比例,从而实现更稳定、高效的 LLM 微调。

关键贡献

  • 对 PPO 在大语言模型中的比例裁剪进行批判性分析,揭示了对稀有 token 的系统性过度惩罚以及对常见 token 的惩罚不足。
  • DP‑PPO 算法,用显式的散度约束(全变差或 KL)取代启发式裁剪。
  • 内存高效的近似方法(二进制掩码 & Top‑K 选择),在不显著增加 GPU 内存占用的前提下捕获大部分散度信号。
  • 在标准 RL‑HF 基准上进行的大规模实证验证(如摘要生成、代码生成),展示了更快的收敛速度、更高的奖励稳定性以及更低的灾难性遗忘。
  • 开源实现(随论文发布),可直接嵌入现有基于 PPO 的 RL‑HF 流程中。

方法论

  1. 问题表述 – 在 RL‑HF 中,策略 πθ 生成一个 token 序列。PPO 通过对概率比率进行裁剪来限制更新

    [ r_t = \frac{\pi_{\theta_{\text{new}}}(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} ]

    对每个采样的 token aₜ 进行约束。作者指出,这个比率是 单样本 Monte‑Carlo 估计 的真实分布偏移,在词汇表大小 |V| ≈ 50k–100k 时噪声极大。

  2. 从比率到散度 – DP‑PPO 用 对旧策略和新策略之间散度度量的硬约束 替代裁剪规则,例如

    [ D_{\text{TV}}(\pi_{\theta_{\text{new}}}, \pi_{\theta_{\text{old}}}) \le \epsilon ]

    或基于 KL 的界限。这样直接控制整个分布的移动幅度,而不仅仅是采样到的 token。

  3. 高效近似 – 每一步计算全词表散度成本过高。作者提出了两种技巧:

    • 二元近似 – 将每个 token 的概率变化视为二元的 “显著 / 不显著” 标记,依据阈值判断,然后仅对被标记的变化求和。
    • Top‑K 近似 – 跟踪概率最高的 K 个 token(例如 K = 256),在该子集上精确计算散度;其余尾部使用统一上界近似。

    这两种近似使额外内存开销保持在 < 2 % 的朴素全词表计算量。

  4. 训练循环集成 – DP‑PPO 嵌入标准的 RL‑HF 流程:生成 rollout,计算奖励,估计优势,然后使用散度约束进行受限的策略梯度更新。其余管线(奖励模型、对基模型的 KL 惩罚等)保持不变。

结果与发现

Model / SettingReward Score ↑Training Steps to Converge ↓Catastrophic Forgetting (Δ Perplexity)
PPO (baseline)7.8150 k+12 %
DP‑PPO (TV)8.4 (+7 %)95 k (‑37 %)+3 % (≈ 4× less)
DP‑PPO (KL)8.2100 k+4 %
  • Stability(稳定性): DP‑PPO 的奖励曲线尖峰显著减少,表明策略更新更平滑。
  • Efficiency(效率): 由于散度约束防止对稀有 token 进行过度激进的更新,优化器需要更少的 epoch 就能达到相同或更高的奖励。
  • Safety(安全性): 在原始(RL 前)数据集上的困惑度下降幅度大幅缩小,意味着微调后的模型保留了更多的基础知识。

定性示例(摘要、代码生成)表明 DP‑PPO 产生的输出在奖励模型评分更高且对人工评审更连贯。

实际意义

  • 生产级 RL‑HF 流水线 可以在几乎不改动代码的情况下采用 DP‑PPO,获得更快的收敛速度并降低“策略崩溃”导致昂贵回滚的风险。
  • 受限内存环境(例如在单卡 GPU 上微调)现在可以使用二进制/Top‑K 技巧进行发散感知更新,而不会导致 VRAM 爆炸。
  • 安全关键的部署(聊天机器人、代码助手)受益于对分布漂移的更严格控制,降低在 RL 微调后出现意外有害或幻觉输出的概率。
  • 工具与生态系统:作者的开源库与 Hugging Face 的 transformerstrl 堆栈集成,使得在现有脚本中将 PPO 优化器替换为 DP‑PPO 变得十分直接。

总体而言,DP‑PPO 提供了一种更为原理化、可扩展的替代方案,取代了过去一年多 RL‑HF 工作中默认使用的启发式裁剪。

限制与未来工作

  • 近似精度: 虽然 Binary 和 Top‑K 近似在实践中表现良好,但它们仍然是启发式方法;在 token 分布高度偏斜的极端情况仍可能出现错误。
  • 超参数敏感性: 散度上界 ε 和 Top‑K 大小 K 需要针对每个任务进行适度调优,这会带来一定的工程开销。
  • 奖励模型依赖性: 论文假设奖励模型已经相当训练充分;噪声奖励仍可能导致训练不稳定,这一问题仅靠 DP‑PPO 并不能解决。
  • 未来方向: 作者建议探索自适应 ε 调度、将该方法扩展到多模态模型(例如视觉‑语言),以及与离策略算法结合以进一步降低样本复杂度。

作者

  • Penghui Qi
  • Xiangxin Zhou
  • Zichen Liu
  • Tianyu Pang
  • Chao Du
  • Min Lin
  • Wee Sun Lee

论文信息

  • arXiv ID: 2602.04879v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 出版日期: 2026年2月4日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 强化注意力学习

通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…

[Paper] 信任典型

当前的LLM安全方法根本上依赖于一种脆弱的猫捉老鼠游戏,通过guardrails识别并阻止已知威胁。我们主张...