[Paper] ROSE: 에이전틱 RL을 위한 협력 탄력성을 통한 GPU 서빙에서의 롤아웃
발행: (2026년 5월 8일 AM 01:33 GMT+9)
10 분 소요
원문: arXiv
Source: arXiv - 2605.06534v1
Overview
이 논문은 ROSE라는 시스템을 소개합니다. 이 시스템은 프로덕션 서비스 클러스터의 유휴 GPU 용량을 활용하여 대형 언어 모델(LLM)의 에이전트 강화 학습(RL) 롤아웃 단계에서 발생하는 비용이 많이 드는 과정을 가속화합니다. 서비스 트래픽과 RL 롤아웃을 “co‑elastic” 방식으로 GPU를 공유함으로써, ROSE는 서비스 측의 지연 보장을 깨뜨리지 않으면서 엔드‑투‑엔드 학습 처리량을 최대 3.3×까지 향상시킵니다.
Key Contributions
- Co‑elastic GPU 공유 모델 – 서빙 클러스터가 일반적으로 여분의 GPU 메모리/연산 자원을 가지고 있으며, 이를 안전하게 RL 롤아웃에 활용할 수 있음을 보여줍니다.
- SLO‑안전 공동 서비스 실행기 – 동일한 GPU에서 서빙 커널과 롤아웃 커널을 다중화하면서 서빙 서비스 수준 목표(지연시간, 처리량)를 보장하는 런타임.
- 클러스터 간 가중치 전송 엔진 – 가중치 샤딩 및 희소성 인식 압축을 사용해 롤아웃 풀과 서빙 풀 간 정책 가중치를 최소 대역폭으로 동기화합니다.
- 탄력적 롤아웃 스케줄러 – 트래픽 급증 및 GPU 가용성에 대응하여 전용 롤아웃 GPU와 기회주의 서빙 GPU에 배치할 롤아웃 작업 수를 동적으로 결정합니다.
- 실증적 검증 – 정적 GPU 기준선 및 기존 탄력적 시스템에 비해 모델 크기(7B–70B)와 클러스터 구성 전반에 걸쳐 1.20–3.31× 높은 처리량을 보여줍니다.
Methodology
- Profiling serving clusters – 저자들은 먼저 실제 운영 추론 서비스에서 GPU 활용도를 측정했으며, 일관된 여유 공간(≈30‑50 % 메모리, 20‑40 % 연산)을 발견했습니다.
- Design of the co‑serving executor
- Memory partitioning: 사전 할당된 메모리 영역에서 추론 요청을 처리하고, 롤아웃 텐서를 위한 별도 영역을 할당합니다.
- Compute interleaving: CUDA 스트림과 우선순위 스케줄링을 사용하여, 지연 SLO가 위험에 처했을 때 추론 커널이 롤아웃 커널을 선점하도록 합니다.
- Weight synchronization
- 모델 가중치를 샤드로 나누고, 크게 변동된 샤드만 전송합니다.
- Sparsity‑aware compression(예: top‑k 마스킹)을 통해 페이로드를 줄여, 일반 네트워킹을 통한 빠른 클러스터 간 업데이트를 가능하게 합니다.
- Elastic scheduler
- 실시간으로 서빙 요청 지연과 GPU 활용도를 모니터링합니다.
- 지연이 SLO보다 충분히 낮을 때 스케줄러는 GPU의 일부를 롤아웃 워커에게 “임대”하고, 트래픽이 급증하면 즉시 임대를 회수합니다.
- Evaluation setup
- 내부 클러스터(8‑GPU부터 64‑GPU 노드)에서 에이전트형 RL 파이프라인(예: ReAct‑style 툴‑사용 작업)으로 벤치마크를 수행했습니다.
- 베이스라인으로는 정적 GPU 롤아웃 풀, 기존 탄력 프레임워크(ElasticTrainer), 그리고 SLO를 무시하는 순진한 “share‑all” 접근법을 포함했습니다.
결과 및 발견
| 지표 | 정적 GPU 기준선 | ElasticTrainer | ROSE (최적 구성) |
|---|---|---|---|
| 엔드‑투‑엔드 RL 처리량 (steps/s) | 1.0× (기준선) | 1.15× | 1.20–3.31× |
| 서비스 지연 시간 99번째 백분위수 | 100 ms (목표) | 120 ms (SLO 위반) | ≤ 100 ms |
| 롤아웃에 대한 GPU 메모리 오버헤드 | 0 % (사용되지 않음) | 15 % (예약됨) | 5 % |
| 가중치 동기화 네트워크 트래픽 (GB/epoch) | 2.4 | 1.8 | 0.9 |
- 처리량 향상은 모델 크기가 커짐에 따라 증가합니다. 큰 모델은 메모리 사용량이 많아 서비스 GPU에 남는 “여분” 메모리를 ROSE가 활용할 수 있기 때문입니다.
- SLO 준수가 유지됩니다: 우선순위 기반 실행기 덕분에 지연 시간 스파이크가 사전에 정의된 임계값을 초과하지 않습니다.
- 크로스‑클러스터 동기화는 단순 전체 모델 브로드캐스트에 비해 대역폭을 약 60 % 절감하여 표준 이더넷에서도 시스템을 활용 가능하게 합니다.
Practical Implications
- Cost savings – 기업은 기존 추론 하드웨어에서 더 많은 RL 학습 작업을 수행할 수 있어, 비싼 GPU 구매를 미루거나 피할 수 있습니다.
- Faster iteration on agentic LLMs – 롤아웃 시간이 짧아지면 도구 사용 및 추론 연구에 대한 피드백 루프가 빨라져, 제품 기능 출시가 가속화됩니다.
- Zero‑downtime upgrades – ROSE가 SLO를 초과하는 추론 요청을 선점하지 않기 때문에, 학습이 백그라운드에서 실행되는 동안에도 프로덕션 서비스는 응답성을 유지합니다.
- Generalizable pattern – 협력적 탄력성 개념은 지연 민감 서비스와 동시에 실행되는 다른 고연산 워크로드(예: diffusion model 샘플링, 배치 추론)에도 적용할 수 있습니다.
- Implementation hints for engineers
cudaStreamPriority를 사용한 CUDA 스트림으로 추론 우선순위를 강제합니다.cudaMallocManaged또는 명시적 메모리 풀을 통해 GPU 메모리를 파티셔닝하여 단편화를 방지합니다.- 가벼운 RPC(예: protobuf를 이용한 gRPC)를 활용해 가중치 샤드 교환을 수행하고, 간단한 top‑k 압축기를 결합합니다.
제한 사항 및 향후 연구
- 예측 가능한 서빙 여유 공간을 가정 – 트래픽 패턴이 매우 변동성이 클 경우, 사용되지 않는 GPU 양이 감소하여 롤아웃 이득이 제한될 수 있습니다.
- GPU 이질성 – 현재 프로토타입은 동질적인 GPU 클러스터를 대상으로 하며, 혼합 세대의 GPU 플릿에서는 보다 정교한 스케줄링 휴리스틱이 필요합니다.
- 보안 및 격리 – 프로덕션 추론과 동일한 GPU에서 학습 커널을 실행하면 사이드채널 누출에 대한 우려가 발생합니다; 논문에서는 샌드박싱을 제안하지만 이를 평가하지는 않았습니다.
- 저자들이 제시한 향후 방향에는 ROSE를 다중 노드 TPU 클러스터로 확장하고, 보다 고급 가중치 압축(예: 양자화된 diff‑sync)을 통합하며, 형식적인 SLO 검증 방법을 탐구하는 것이 포함됩니다.
저자
- Wei Gao
- Yuheng Zhao
- Dilxat Muhtar
- Dakai An
- Xuchun Shang
- Tianyuan Wu
- Lunxi Cao
- Shaopan Xiong
- Weixun Wang
- Ju Huang
- Teng Ma
- Siran Yang
- Jiamang Wang
- Lin Qu
- Bo Zheng
- Wei Wang
논문 정보
- arXiv ID: 2605.06534v1
- 분류: cs.DC
- 출판일: 2026년 5월 7일
- PDF: PDF 다운로드