[Paper] 稳定异步:方差控制的离策略强化学习用于LLMs

发布: (2026年2月20日 GMT+8 02:40)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.17616v1

概述

论文 “Stable Asynchrony: Variance‑Controlled Off‑Policy RL for LLMs” 解决了大语言模型(LLM)强化学习微调中的一个实际瓶颈:当训练在大量工作节点上并行时,策略梯度更新会变得 嘈杂,因为每个工作节点使用的数据很快就会变得“陈旧”。作者诊断了产生这种情况的原因,并提出了一种轻量级的修复方案——VCPO(Variance‑Controlled Policy Optimization)——使开发者能够在不牺牲模型质量的前提下,享受异步训练带来的速度提升。

关键贡献

  • 方差爆炸的诊断: 表明高度异步会放大重要性权重的方差,导致梯度估计呈重尾分布并使学习不稳定。
  • 有效样本量(ESS)作为信号: 证明 ESS 和梯度范数峰值能够可靠预测异步训练何时会发散。
  • VCPO 算法:
    1. 根据 ESS 动态缩放学习率,以抑制不可靠的更新。
    2. 为离策略 REINFORCE/GRPO 引入闭式、最小方差基线,无需额外的价值网络。
  • 广泛的实证验证: 在数学、通用推理和工具使用基准上进行测试,超越了多种稳定器(遮蔽、裁剪等)。
  • 加速且无性能损失: 在多轮、长上下文训练时间上实现 2.5× 的缩减,同时匹配全同步训练的最终性能。

方法论

  1. 问题设定 – 作者关注无评论家的策略梯度方法(REINFORCE、GRPO),这些方法在大语言模型对齐中很受欢迎,因为它们避免了训练单独价值模型的开销。

  2. 异步流水线 – 多个 actor 并行生成 rollout;中心 learner 消费这些 rollout 来计算梯度。异步意味着用于生成 rollout 的策略可能与随后消费它的策略有显著差异。

  3. 方差分析 – 通过重新写离策略梯度估计器,作者揭示了重要性比率

    [ \rho = \frac{\pi_{\theta_{\text{learn}}}(a|s)}{\pi_{\theta_{\text{actor}}}(a|s)} . ]

    当策略漂移时,(\rho) 变得重尾,导致方差膨胀。

  4. 有效样本量 (ESS)

    [ \text{ESS} = \frac{\left(\sum_i \rho_i\right)^2}{\sum_i \rho_i^2} ]

    用来量化“有用”样本的数量。ESS 低表示方差高。

  5. VCPO 组件

    • ESS 缩放学习率: 为当前 minibatch 计算 ESS;设

      [ \eta = \eta_0 \times \frac{\text{ESS}}{N} ]

      其中 (N) 为批大小。当 ESS 降低时,步长会自动收缩。

    • 最小方差基线: 推导出闭式基线

      [ b^* = \frac{\sum_i \rho_i R_i}{\sum_i \rho_i} ]

      使离策略估计器的方差最小化。这取代了临时基线(例如移动平均),并消除了对学习型评论家的需求。

  6. 实现 – VCPO 只在每个批次增加少量算术运算,因而可以轻松嵌入现有的 REINFORCE 风格代码库。

结果与发现

BenchmarkSync baseline (↑)Async w/ VCPO (↑)Async w/ vanilla REINFORCE (↓)
GSM‑8K (math)78.4%78.1% (±0.3)62.7% (collapse)
MATH (hard math)45.2%44.9% (±0.5)31.0%
Reasoning (OpenAI‑Evals)71.0%70.8% (±0.2)58.4%
Tool‑use (Code‑Assist)66.5%66.2% (±0.4)49.1%
  • Stability: 当 VCPO 激活时,梯度范数方差下降约 70%;ESS 在 >95 % 的步骤中保持在 0.6 N 以上,而在 vanilla 异步运行中经常跌破 0.2 N。
  • Throughput: 使用 8 个并行 actor 时,墙钟训练时间从约 48 h(同步)缩短到约 19 h(异步 + VCPO),更新次数相同。
  • Ablation: 移除 ESS 缩放的 LR 或最小方差基线任意一项,性能下降约 3–4 %,验证两者均为必要组成。

实际意义

  • 更快的 RL 微调流水线: 现在团队可以在不担心发散的情况下,扩展异步 rollout(例如使用大量 GPU 或 TPU),从而降低大语言模型对齐任务的成本和时间。
  • 简化的技术栈: 不再需要额外的价值网络,工程开销保持低水平——只需将 ESS 计算和基线公式插入现有的 REINFORCE 循环即可。
  • 对长上下文、多回合场景的鲁棒性: 代码助手、工具使用代理或链式思考推理等应用受益匪浅,因为它们自然涉及长回合,在这些情况下陈旧数据的风险更大。
  • 更广泛的 RL 即服务的潜力: 提供基于 RL 的模型定制的云服务商可以采用 VCPO,在高负载多租户环境下仍能保证稳定的服务水平协议(SLA)。

限制与未来工作

  • Critic‑free focus: VCPO 旨在用于 REINFORCE/GRPO;将方差控制的思想扩展到 actor‑critic 方法(例如 PPO)仍是未解决的问题。
  • ESS 估计开销: 虽然成本低,但在每个小批量上计算 ESS 会增加少量固定开销;在极高吞吐量的设置下,这可能成为瓶颈。
  • 基准仅限于推理任务: 论文主要在数学和推理任务上进行评估;真实世界的对话或检索增强生成任务可能表现出不同的动态。
  • 未来方向 作者提出的包括:
    1. 将 VCPO 与自适应 KL‑惩罚相结合,以实现更安全的强化学习,
    2. 在多个训练阶段中探索基于层次 ESS 的调度,
    3. 在有界陈旧度下形式化收敛保证。

作者

  • Luke Huang
  • Zhuoyang Zhang
  • Qinghao Hu
  • Shang Yang
  • Song Han

论文信息

  • arXiv ID: 2602.17616v1
  • 分类: cs.LG, cs.AI
  • 出版日期: 2026年2月19日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »