[Paper] 稳定异步：方差控制的离策略强化学习用于LLMs

发布: 3天前 (2026年2月20日 GMT+8 02:40)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.17616v1

概述

论文 “Stable Asynchrony: Variance‑Controlled Off‑Policy RL for LLMs” 解决了大语言模型（LLM）强化学习微调中的一个实际瓶颈：当训练在大量工作节点上并行时，策略梯度更新会变得嘈杂，因为每个工作节点使用的数据很快就会变得“陈旧”。作者诊断了产生这种情况的原因，并提出了一种轻量级的修复方案——VCPO（Variance‑Controlled Policy Optimization）——使开发者能够在不牺牲模型质量的前提下，享受异步训练带来的速度提升。

关键贡献

方差爆炸的诊断： 表明高度异步会放大重要性权重的方差，导致梯度估计呈重尾分布并使学习不稳定。
有效样本量（ESS）作为信号： 证明 ESS 和梯度范数峰值能够可靠预测异步训练何时会发散。
VCPO 算法：
1. 根据 ESS 动态缩放学习率，以抑制不可靠的更新。
2. 为离策略 REINFORCE/GRPO 引入闭式、最小方差基线，无需额外的价值网络。
广泛的实证验证： 在数学、通用推理和工具使用基准上进行测试，超越了多种稳定器（遮蔽、裁剪等）。
加速且无性能损失： 在多轮、长上下文训练时间上实现 2.5× 的缩减，同时匹配全同步训练的最终性能。

方法论

问题设定 – 作者关注无评论家的策略梯度方法（REINFORCE、GRPO），这些方法在大语言模型对齐中很受欢迎，因为它们避免了训练单独价值模型的开销。
异步流水线 – 多个 actor 并行生成 rollout；中心 learner 消费这些 rollout 来计算梯度。异步意味着用于生成 rollout 的策略可能与随后消费它的策略有显著差异。
方差分析 – 通过重新写离策略梯度估计器，作者揭示了重要性比率

[ \rho = \frac{\pi_{\theta_{\text{learn}}}(a|s)}{\pi_{\theta_{\text{actor}}}(a|s)} . ]

当策略漂移时，(\rho) 变得重尾，导致方差膨胀。
有效样本量 (ESS) –

[ \text{ESS} = \frac{\left(\sum_i \rho_i\right)^2}{\sum_i \rho_i^2} ]

用来量化“有用”样本的数量。ESS 低表示方差高。
VCPO 组件
- ESS 缩放学习率: 为当前 minibatch 计算 ESS；设
  
  [ \eta = \eta_0 \times \frac{\text{ESS}}{N} ]
  
  其中 (N) 为批大小。当 ESS 降低时，步长会自动收缩。
- 最小方差基线: 推导出闭式基线
  
  [ b^* = \frac{\sum_i \rho_i R_i}{\sum_i \rho_i} ]
  
  使离策略估计器的方差最小化。这取代了临时基线（例如移动平均），并消除了对学习型评论家的需求。
实现 – VCPO 只在每个批次增加少量算术运算，因而可以轻松嵌入现有的 REINFORCE 风格代码库。

结果与发现

Benchmark	Sync baseline (↑)	Async w/ VCPO (↑)	Async w/ vanilla REINFORCE (↓)
GSM‑8K (math)	78.4%	78.1% (±0.3)	62.7% (collapse)
MATH (hard math)	45.2%	44.9% (±0.5)	31.0%
Reasoning (OpenAI‑Evals)	71.0%	70.8% (±0.2)	58.4%
Tool‑use (Code‑Assist)	66.5%	66.2% (±0.4)	49.1%

Stability: 当 VCPO 激活时，梯度范数方差下降约 70%；ESS 在 >95 % 的步骤中保持在 0.6 N 以上，而在 vanilla 异步运行中经常跌破 0.2 N。
Throughput: 使用 8 个并行 actor 时，墙钟训练时间从约 48 h（同步）缩短到约 19 h（异步 + VCPO），更新次数相同。
Ablation: 移除 ESS 缩放的 LR 或最小方差基线任意一项，性能下降约 3–4 %，验证两者均为必要组成。

实际意义

更快的 RL 微调流水线： 现在团队可以在不担心发散的情况下，扩展异步 rollout（例如使用大量 GPU 或 TPU），从而降低大语言模型对齐任务的成本和时间。
简化的技术栈： 不再需要额外的价值网络，工程开销保持低水平——只需将 ESS 计算和基线公式插入现有的 REINFORCE 循环即可。
对长上下文、多回合场景的鲁棒性： 代码助手、工具使用代理或链式思考推理等应用受益匪浅，因为它们自然涉及长回合，在这些情况下陈旧数据的风险更大。
更广泛的 RL 即服务的潜力： 提供基于 RL 的模型定制的云服务商可以采用 VCPO，在高负载多租户环境下仍能保证稳定的服务水平协议（SLA）。

限制与未来工作

Critic‑free focus: VCPO 旨在用于 REINFORCE/GRPO；将方差控制的思想扩展到 actor‑critic 方法（例如 PPO）仍是未解决的问题。
ESS 估计开销: 虽然成本低，但在每个小批量上计算 ESS 会增加少量固定开销；在极高吞吐量的设置下，这可能成为瓶颈。
基准仅限于推理任务: 论文主要在数学和推理任务上进行评估；真实世界的对话或检索增强生成任务可能表现出不同的动态。
未来方向 作者提出的包括：
1. 将 VCPO 与自适应 KL‑惩罚相结合，以实现更安全的强化学习，
2. 在多个训练阶段中探索基于层次 ESS 的调度，
3. 在有界陈旧度下形式化收敛保证。

作者

Luke Huang
Zhuoyang Zhang
Qinghao Hu
Shang Yang
Song Han

论文信息

arXiv ID: 2602.17616v1
分类: cs.LG, cs.AI
出版日期: 2026年2月19日
PDF: 下载 PDF

[Paper] 稳定异步：方差控制的离策略强化学习用于LLMs

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求