[论文] ROSE:通过协作弹性在服务 GPU 上进行 Rollout 用于 Agentic RL

发布: (2026年5月8日 GMT+8 00:33)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.06534v1

Overview

本文介绍了 ROSE 系统,它可以利用生产服务集群中闲置的 GPU 资源,加速大型语言模型(LLM)在代理强化学习(RL)中的高成本 rollout 阶段。通过在“协同弹性”(co‑elastic)方式下在服务流量和 RL rollout 之间共享 GPU,ROSE 在不破坏服务端延迟保证的前提下,实现了最高 3.3 倍的端到端训练吞吐量提升。

关键贡献

  • 协同弹性 GPU 共享模型 – 证明服务集群通常拥有多余的 GPU 内存/计算资源,可安全用于 RL rollout。
  • SLO 安全的协同服务执行器 – 一个运行时,在同一 GPU 上复用服务和 rollout 内核,同时保证服务的服务水平目标(延迟、吞吐量)。
  • 跨集群权重转移引擎 – 使用权重分片和稀疏感知压缩,在 rollout 池和服务池之间同步策略权重,带宽需求最小。
  • 弹性 rollout 调度器 – 动态决定将多少 rollout 作业放在专用 rollout GPU 上 vs. 机会性服务 GPU 上,以应对流量突发和 GPU 可用性。
  • 实证验证 – 相比静态 GPU 基线和先前的弹性系统,在一系列模型规模(7B–70B)和集群配置下,吞吐量提升 1.20–3.31 倍。

方法论

  1. 对服务集群进行分析 – 作者首先测量了生产推理服务中的真实 GPU 利用率,发现始终有空余(约 30‑50 % 内存,20‑40 % 计算)。
  2. 协同执行器的设计
    • 内存划分:在预分配的内存区域中处理推理请求,同时为 rollout 张量分配独立区域。
    • 计算交错:使用 CUDA 流和优先级调度,使得在延迟 SLO 有风险时,推理 kernel 能抢占 rollout kernel。
  3. 权重同步
    • 模型权重被划分为多个 shard;仅传输变化显著的 shard。
    • 稀疏感知压缩(例如 top‑k 掩码)降低了负载,使得在普通网络上也能实现快速跨集群更新。
  4. 弹性调度器
    • 实时监控服务请求的延迟和 GPU 利用率。
    • 当延迟远低于 SLO 时,调度器将 GPU 的一部分“租给” rollout 工作线程;当流量激增时,立即收回租用。
  5. 评估设置
    • 在内部集群(8‑GPU 到 64‑GPU 节点)上进行基准测试,使用 agentic RL 流水线(例如 ReAct 风格的工具使用任务)。
    • 基线包括静态 GPU rollout 池、已有的弹性框架(ElasticTrainer)以及忽视 SLO 的朴素“全部共享”方法。

结果与发现

指标静态 GPU 基线ElasticTrainerROSE(最佳配置)
端到端 RL 吞吐量(步/秒)1.0×(基线)1.15×1.20–3.31×
服务延迟第 99 百分位100 ms(目标)120 ms(SLO 违约)≤ 100 ms
Rollout 的 GPU 内存开销0 %(未使用)15 %(已保留)5 %
权重同步的网络流量(GB/epoch)2.41.80.9
  • 吞吐量提升 随模型规模增大,因为更大的模型占用更多内存,使得服务 GPU 上有更多“空余”内存可供 ROSE 利用。
  • SLO 合规性 得以保持:由于基于优先级的执行器,延迟峰值从不超过预定义阈值。
  • 跨集群同步 与朴素的全模型广播相比可将带宽降低约 60 %,即使在标准以太网环境下也能实现系统可行性。

实际意义

  • 成本节约 – 公司可以在现有推理硬件上挤出更多强化学习训练工作,推迟或避免昂贵的 GPU 采购。
  • 更快的代理式 LLM 迭代 – 更短的上线时间意味着更快的工具使用和推理研究反馈循环,加速产品功能的发布。
  • 零停机升级 – 因为 ROSE 不会在超出 SLO 的情况下抢占推理请求,生产服务在训练后台进行时仍保持响应。
  • 可推广的模式 – 合作弹性概念可用于其他计算密集型工作负载(例如扩散模型采样、批量推理),这些工作负载与对时延敏感的服务共存。
  • 给工程师的实现提示
    • 使用带有 cudaStreamPriority 的 CUDA 流来强制推理优先级。
    • 通过 cudaMallocManaged 或显式内存池划分 GPU 内存,以避免碎片化。
    • 采用轻量级 RPC(例如使用 protobuf 的 gRPC)进行权重分片交换,并结合简单的 top‑k 压缩器。

限制与未来工作

  • 假设可预测的服务余量 – 在高度波动的流量模式下,空闲 GPU 的数量可能会减少,限制部署收益。
  • GPU 异构性 – 当前原型针对同质 GPU 集群;混合代际的机群需要更复杂的调度启发式算法。
  • 安全性与隔离 – 在同一 GPU 上运行训练内核和生产推理会引发侧信道泄漏的担忧;论文提出了沙箱方案,但未进行评估。
  • 作者提出的未来方向 包括:将 ROSE 扩展到多节点 TPU 集群,集成更先进的权重压缩(例如量化差分同步),以及探索形式化的 SLO 验证方法。

作者

  • Wei Gao
  • Yuheng Zhao
  • Dilxat Muhtar
  • Dakai An
  • Xuchun Shang
  • Tianyuan Wu
  • Lunxi Cao
  • Shaopan Xiong
  • Weixun Wang
  • Ju Huang
  • Teng Ma
  • Siran Yang
  • Jiamang Wang
  • Lin Qu
  • Bo Zheng
  • Wei Wang

论文信息

  • arXiv ID: 2605.06534v1
  • 分类: cs.DC
  • 出版日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »