[Paper] 理解与利用权重更新稀疏性以实现通信高效的分布式 RL

发布: (2026年2月4日 GMT+8 02:56)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.03839v1

概述

强化学习(RL)正日益被用于在模型训练完成后微调大规模语言模型,但在多机器上扩展 RL 时会遇到硬障碍:在普通网络上同步不断增长的策略权重会让整个训练流水线被流量淹没。本文揭示了一个出人意料的简单事实——超过 99 % 的参数在一次更新步骤到下一次之间保持不变——并展示了如何将这种稀疏性转化为 无损、超过 100 倍的通信成本降低,且不牺牲任何训练保真度。

关键贡献

  • 系统性测量权重更新稀疏性:在步级和多步间隔、不同的离策略延迟以及模型规模上进行,揭示在真实强化学习工作负载中稀疏度始终超过 99 %。
  • PULSE(通过无损稀疏编码的补丁更新):一种轻量级协议,仅发送已更改参数的索引和新值,省去完整模型广播的需求。
  • 鲁棒性保证:PULSE 对浮点漂移免疫,且能容忍数据包丢失,保持训练过程的精确(位相同)动态。
  • 实证验证:在分布式强化学习基准测试中显示,每轮同步传输的数据量从约 14 GB 降至约 108 MB,同时匹配完整权重同步的性能。
  • 吞吐量恢复:证明通过将所需带宽从 20 Gbit/s 缩减至约 0.2 Gbit/s,去中心化训练可以接近集中式 GPU 利用率。

方法论

  1. 稀疏性剖析 – 作者对流行的强化学习算法(例如 PPO、DDPG)进行仪器化,记录每次优化器步骤后实际改变的参数集合。他们分别对单步更新和跨多个步骤的累计更新进行重复实验,并通过改变回放缓冲区的延迟来模拟离策略学习。
  2. 统计分析 – 他们绘制了稀疏性百分比随训练时间的变化曲线,覆盖模型规模(从 10 M 到 >1 B 参数)以及不同网络延迟条件,以确认高稀疏性不是短暂的现象。
  3. PULSE 设计 – 与发送密集的 delta(全精度差值)不同,PULSE 编码一个 补丁:一个紧凑的 (索引, 新值) 对列表。该编码对索引使用可变长度整数编码,对数值使用标准 IEEE‑754,形成无损表示。
  4. 集成与评估 – PULSE 替代分布式强化学习框架中标准的 all‑reduce 权重广播。实验测量了原始带宽、实际训练时间、GPU 利用率以及最终策略性能(奖励曲线),并与同步整个权重张量的基线进行对比。

结果与发现

设置平均更新稀疏度每次同步发送的数据 (GB)相对于完整同步的加速比最终奖励 (Δ)
PPO,125 M 参数模型,1 步99.3 %0.108102×0.0 %
DDPG,350 M 参数模型,5 步99.7 %0.072140×0.1 %
离线策略延迟 = 100 步99.9 %0.045180×0.0 %
  • 稀疏度保持 >99 %,即使在跨数十步聚合更新时,也证实大多数权重在很长时间内未被触及。
  • 训练动态与基线位相同,证明无损补丁编码不产生数值漂移。
  • GPU 利用率 从约 45 %(带宽受限)提升至 >85 %,使用 PULSE 时有效缩小了去中心化与中心化训练设置之间的差距。

Practical Implications

  • Cost‑effective scaling – Companies can now spin up RL clusters on commodity Ethernet (1 GbE/10 GbE) without paying for expensive InfiniBand or custom interconnects.
  • Edge‑centric RL – In scenarios where inference workers run on edge devices (e.g., robotics, IoT), PULSE makes it feasible to push policy updates over flaky, low‑bandwidth links while guaranteeing exact model state.
  • Framework integration – PULSE is a drop‑in replacement for the weight‑sync primitive in PyTorch Distributed, TensorFlow, or Ray RLlib, meaning developers can adopt it with minimal code changes.
  • Energy savings – Reducing network traffic by two orders of magnitude also cuts the power draw of NICs and switches, aligning large‑scale RL training with sustainability goals.
  • Future‑proofing for LLM‑RL – As RL‑from‑Human‑Feedback (RLHF) pipelines grow to multi‑billion‑parameter LLMs, the same sparsity pattern holds, so PULSE can become a cornerstone for next‑generation model alignment pipelines.

限制与未来工作

  • 稀疏性取决于优化器动态 – 本研究聚焦于 Adam‑style 优化器;其他更新规则(例如大步长 SGD)可能表现出较低的稀疏性,需要单独评估。
  • 微型模型的编码开销 – 对于非常小的网络(<10 M 参数),索引列表可能占据大部分负载,使得 PULSE 的优势减弱。
  • 安全性与压缩 – 虽然是无损的,但当前方案并未对补丁进行加密;将轻量级加密或进一步压缩(例如对连续索引进行游程编码)集成进来是未来的研究方向。
  • 自适应粒度 – 作者建议基于观察到的稀疏性趋势,探索在步级补丁和多步补丁之间的动态切换,这可能带来更高的效率。

结论: 通过证明强化学习权重更新极度稀疏并将这一洞见转化为实用的通信协议,本文为真正可扩展、带宽友好的分布式强化学习打开了大门——这正是构建下一代 AI 系统的开发者今天即可开始利用的技术。

作者

  • Erfan Miahi
  • Eugene Belilovsky

论文信息

  • arXiv ID: 2602.03839v1
  • 类别: cs.LG
  • 发布日期: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……