[论文] ROSE：通过协作弹性在服务 GPU 上进行 Rollout 用于 Agentic RL

发布: 3天前 (2026年5月8日 GMT+8 00:33)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.06534v1

Overview

本文介绍了 ROSE 系统，它可以利用生产服务集群中闲置的 GPU 资源，加速大型语言模型（LLM）在代理强化学习（RL）中的高成本 rollout 阶段。通过在“协同弹性”（co‑elastic）方式下在服务流量和 RL rollout 之间共享 GPU，ROSE 在不破坏服务端延迟保证的前提下，实现了最高 3.3 倍的端到端训练吞吐量提升。

关键贡献

协同弹性 GPU 共享模型 – 证明服务集群通常拥有多余的 GPU 内存/计算资源，可安全用于 RL rollout。
SLO 安全的协同服务执行器 – 一个运行时，在同一 GPU 上复用服务和 rollout 内核，同时保证服务的服务水平目标（延迟、吞吐量）。
跨集群权重转移引擎 – 使用权重分片和稀疏感知压缩，在 rollout 池和服务池之间同步策略权重，带宽需求最小。
弹性 rollout 调度器 – 动态决定将多少 rollout 作业放在专用 rollout GPU 上 vs. 机会性服务 GPU 上，以应对流量突发和 GPU 可用性。
实证验证 – 相比静态 GPU 基线和先前的弹性系统，在一系列模型规模（7B–70B）和集群配置下，吞吐量提升 1.20–3.31 倍。

方法论

对服务集群进行分析 – 作者首先测量了生产推理服务中的真实 GPU 利用率，发现始终有空余（约 30‑50 % 内存，20‑40 % 计算）。
协同执行器的设计
- 内存划分：在预分配的内存区域中处理推理请求，同时为 rollout 张量分配独立区域。
- 计算交错：使用 CUDA 流和优先级调度，使得在延迟 SLO 有风险时，推理 kernel 能抢占 rollout kernel。
权重同步
- 模型权重被划分为多个 shard；仅传输变化显著的 shard。
- 稀疏感知压缩（例如 top‑k 掩码）降低了负载，使得在普通网络上也能实现快速跨集群更新。
弹性调度器
- 实时监控服务请求的延迟和 GPU 利用率。
- 当延迟远低于 SLO 时，调度器将 GPU 的一部分“租给” rollout 工作线程；当流量激增时，立即收回租用。
评估设置
- 在内部集群（8‑GPU 到 64‑GPU 节点）上进行基准测试，使用 agentic RL 流水线（例如 ReAct 风格的工具使用任务）。
- 基线包括静态 GPU rollout 池、已有的弹性框架（ElasticTrainer）以及忽视 SLO 的朴素“全部共享”方法。

结果与发现

指标	静态 GPU 基线	ElasticTrainer	ROSE（最佳配置）
端到端 RL 吞吐量（步/秒）	1.0×（基线）	1.15×	1.20–3.31×
服务延迟第 99 百分位	100 ms（目标）	120 ms（SLO 违约）	≤ 100 ms
Rollout 的 GPU 内存开销	0 %（未使用）	15 %（已保留）	5 %
权重同步的网络流量（GB/epoch）	2.4	1.8	0.9

吞吐量提升 随模型规模增大，因为更大的模型占用更多内存，使得服务 GPU 上有更多“空余”内存可供 ROSE 利用。
SLO 合规性 得以保持：由于基于优先级的执行器，延迟峰值从不超过预定义阈值。
跨集群同步 与朴素的全模型广播相比可将带宽降低约 60 %，即使在标准以太网环境下也能实现系统可行性。

实际意义

成本节约 – 公司可以在现有推理硬件上挤出更多强化学习训练工作，推迟或避免昂贵的 GPU 采购。
更快的代理式 LLM 迭代 – 更短的上线时间意味着更快的工具使用和推理研究反馈循环，加速产品功能的发布。
零停机升级 – 因为 ROSE 不会在超出 SLO 的情况下抢占推理请求，生产服务在训练后台进行时仍保持响应。
可推广的模式 – 合作弹性概念可用于其他计算密集型工作负载（例如扩散模型采样、批量推理），这些工作负载与对时延敏感的服务共存。
给工程师的实现提示
- 使用带有 cudaStreamPriority 的 CUDA 流来强制推理优先级。
- 通过 cudaMallocManaged 或显式内存池划分 GPU 内存，以避免碎片化。
- 采用轻量级 RPC（例如使用 protobuf 的 gRPC）进行权重分片交换，并结合简单的 top‑k 压缩器。

限制与未来工作

假设可预测的服务余量 – 在高度波动的流量模式下，空闲 GPU 的数量可能会减少，限制部署收益。
GPU 异构性 – 当前原型针对同质 GPU 集群；混合代际的机群需要更复杂的调度启发式算法。
安全性与隔离 – 在同一 GPU 上运行训练内核和生产推理会引发侧信道泄漏的担忧；论文提出了沙箱方案，但未进行评估。
作者提出的未来方向 包括：将 ROSE 扩展到多节点 TPU 集群，集成更先进的权重压缩（例如量化差分同步），以及探索形式化的 SLO 验证方法。

作者

Wei Gao
Yuheng Zhao
Dilxat Muhtar
Dakai An
Xuchun Shang
Tianyuan Wu
Lunxi Cao
Shaopan Xiong
Weixun Wang
Ju Huang
Teng Ma
Siran Yang
Jiamang Wang
Lin Qu
Bo Zheng
Wei Wang

论文信息

arXiv ID: 2605.06534v1
分类: cs.DC
出版日期: 2026年5月7日
PDF: 下载 PDF

[论文] ROSE：通过协作弹性在服务 GPU 上进行 Rollout 用于 Agentic RL

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Cerebras Wafer-Scale Engine上的Stencil计算

[Paper] Tenstorrent Wormhole上的Stencil计算

[Paper] HexiSeq: 在异构硬件上实现 LLM 的长上下文训练

[论文] RcLLM：通过超前缀 KV 缓存加速生成式推荐