[论文] ROSE:通过协作弹性在服务 GPU 上进行 Rollout 用于 Agentic RL
发布: (2026年5月8日 GMT+8 00:33)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.06534v1
Overview
本文介绍了 ROSE 系统,它可以利用生产服务集群中闲置的 GPU 资源,加速大型语言模型(LLM)在代理强化学习(RL)中的高成本 rollout 阶段。通过在“协同弹性”(co‑elastic)方式下在服务流量和 RL rollout 之间共享 GPU,ROSE 在不破坏服务端延迟保证的前提下,实现了最高 3.3 倍的端到端训练吞吐量提升。
关键贡献
- 协同弹性 GPU 共享模型 – 证明服务集群通常拥有多余的 GPU 内存/计算资源,可安全用于 RL rollout。
- SLO 安全的协同服务执行器 – 一个运行时,在同一 GPU 上复用服务和 rollout 内核,同时保证服务的服务水平目标(延迟、吞吐量)。
- 跨集群权重转移引擎 – 使用权重分片和稀疏感知压缩,在 rollout 池和服务池之间同步策略权重,带宽需求最小。
- 弹性 rollout 调度器 – 动态决定将多少 rollout 作业放在专用 rollout GPU 上 vs. 机会性服务 GPU 上,以应对流量突发和 GPU 可用性。
- 实证验证 – 相比静态 GPU 基线和先前的弹性系统,在一系列模型规模(7B–70B)和集群配置下,吞吐量提升 1.20–3.31 倍。
方法论
- 对服务集群进行分析 – 作者首先测量了生产推理服务中的真实 GPU 利用率,发现始终有空余(约 30‑50 % 内存,20‑40 % 计算)。
- 协同执行器的设计
- 内存划分:在预分配的内存区域中处理推理请求,同时为 rollout 张量分配独立区域。
- 计算交错:使用 CUDA 流和优先级调度,使得在延迟 SLO 有风险时,推理 kernel 能抢占 rollout kernel。
- 权重同步
- 模型权重被划分为多个 shard;仅传输变化显著的 shard。
- 稀疏感知压缩(例如 top‑k 掩码)降低了负载,使得在普通网络上也能实现快速跨集群更新。
- 弹性调度器
- 实时监控服务请求的延迟和 GPU 利用率。
- 当延迟远低于 SLO 时,调度器将 GPU 的一部分“租给” rollout 工作线程;当流量激增时,立即收回租用。
- 评估设置
- 在内部集群(8‑GPU 到 64‑GPU 节点)上进行基准测试,使用 agentic RL 流水线(例如 ReAct 风格的工具使用任务)。
- 基线包括静态 GPU rollout 池、已有的弹性框架(ElasticTrainer)以及忽视 SLO 的朴素“全部共享”方法。
结果与发现
| 指标 | 静态 GPU 基线 | ElasticTrainer | ROSE(最佳配置) |
|---|---|---|---|
| 端到端 RL 吞吐量(步/秒) | 1.0×(基线) | 1.15× | 1.20–3.31× |
| 服务延迟第 99 百分位 | 100 ms(目标) | 120 ms(SLO 违约) | ≤ 100 ms |
| Rollout 的 GPU 内存开销 | 0 %(未使用) | 15 %(已保留) | 5 % |
| 权重同步的网络流量(GB/epoch) | 2.4 | 1.8 | 0.9 |
- 吞吐量提升 随模型规模增大,因为更大的模型占用更多内存,使得服务 GPU 上有更多“空余”内存可供 ROSE 利用。
- SLO 合规性 得以保持:由于基于优先级的执行器,延迟峰值从不超过预定义阈值。
- 跨集群同步 与朴素的全模型广播相比可将带宽降低约 60 %,即使在标准以太网环境下也能实现系统可行性。
实际意义
- 成本节约 – 公司可以在现有推理硬件上挤出更多强化学习训练工作,推迟或避免昂贵的 GPU 采购。
- 更快的代理式 LLM 迭代 – 更短的上线时间意味着更快的工具使用和推理研究反馈循环,加速产品功能的发布。
- 零停机升级 – 因为 ROSE 不会在超出 SLO 的情况下抢占推理请求,生产服务在训练后台进行时仍保持响应。
- 可推广的模式 – 合作弹性概念可用于其他计算密集型工作负载(例如扩散模型采样、批量推理),这些工作负载与对时延敏感的服务共存。
- 给工程师的实现提示
- 使用带有
cudaStreamPriority的 CUDA 流来强制推理优先级。 - 通过
cudaMallocManaged或显式内存池划分 GPU 内存,以避免碎片化。 - 采用轻量级 RPC(例如使用 protobuf 的 gRPC)进行权重分片交换,并结合简单的 top‑k 压缩器。
- 使用带有
限制与未来工作
- 假设可预测的服务余量 – 在高度波动的流量模式下,空闲 GPU 的数量可能会减少,限制部署收益。
- GPU 异构性 – 当前原型针对同质 GPU 集群;混合代际的机群需要更复杂的调度启发式算法。
- 安全性与隔离 – 在同一 GPU 上运行训练内核和生产推理会引发侧信道泄漏的担忧;论文提出了沙箱方案,但未进行评估。
- 作者提出的未来方向 包括:将 ROSE 扩展到多节点 TPU 集群,集成更先进的权重压缩(例如量化差分同步),以及探索形式化的 SLO 验证方法。
作者
- Wei Gao
- Yuheng Zhao
- Dilxat Muhtar
- Dakai An
- Xuchun Shang
- Tianyuan Wu
- Lunxi Cao
- Shaopan Xiong
- Weixun Wang
- Ju Huang
- Teng Ma
- Siran Yang
- Jiamang Wang
- Lin Qu
- Bo Zheng
- Wei Wang
论文信息
- arXiv ID: 2605.06534v1
- 分类: cs.DC
- 出版日期: 2026年5月7日
- PDF: 下载 PDF