[Paper] 이기종 GPU 클러스터에서 DL 워크로드를 위한 하이브리드 학습 및 최적화 기반 동적 스케줄링
Source: arXiv - 2512.10271v1
Overview
딥러닝(DL) 학습 작업이 현재 클라우드 GPU 워크로드를 장악하고 있지만, 서로 다른 모델, 메모리 크기, 인터커넥트를 갖는 이기종 GPU 클러스터가 급격히 늘어나면서 기존 스케줄러가 GPU를 계속 바쁘게 유지하고 작업 시간을 짧게 유지하기가 어려워지고 있다. 이 논문은 RLTune을 소개한다. RLTune은 작업별 프로파일링 없이 동작하는 강화학습(RL) 기반 스케줄러이며, RL 기반 작업 우선순위 지정과 혼합정수선형계획(MILP) 최적화기를 결합해 실시간으로 작업을 가장 적합한 노드에 매핑한다.
Key Contributions
- 애플리케이션에 독립적인 RL 우선순위 지정기 – 요청된 자원, 과거 대기 시간 등 관찰 가능한 메트릭만을 사용해 들어오는 DL 작업을 순위 매기는 방법을 학습함으로써 오프라인 프로파일링이 필요 없게 한다.
- 하이브리드 RL + MILP 프레임워크 – 빠르게 학습된 우선순위 점수와 정확한 MILP 솔버를 결합해 다중 목표(완료 시간, 대기 지연, 활용도) 하에 최적의 작업‑GPU‑노드 할당을 산출한다.
- 대규모 실생산 평가 – Microsoft Philly, Helios, Alibaba의 트레이스 데이터를 사용해 학습·검증했으며, 실제 현장 적용 가능성을 입증한다.
- 뛰어난 성능 향상 – 최신 스케줄러 대비 GPU 활용도 20 % 상승, 대기 지연 81 % 감소, 작업 완료 시간 70 % 단축을 달성한다.
- 범용 설계 – CNN, Transformer, RL 에이전트 등 다양한 DL 워크로드에 대해 수작업 휴리스틱이나 모델별 튜닝 없이 동작한다.
Methodology
- 데이터 수집 – 저자들은 세 개의 프로덕션 클러스터에서 수백만 건의 작업 제출 로그를 수집하고, 요청 GPU 수, 메모리, 예상 실행 시간, 현재 클러스터 상태와 같은 경량 특징을 추출했다.
- RL 우선순위 지정 – 작은 피드포워드 신경망으로 구성된 정책 네트워크가 특징 벡터를 입력받아 우선순위 점수를 출력한다. 정책은 (a) 작업 완료 시간 최소화, (b) 대기열 길이 감소, (c) 전체 GPU 활용도 최대화를 목표로 하는 보상으로 학습된다. 안정적인 학습을 위해 Proximal Policy Optimization(PPO)이 사용된다.
- MILP 매핑 – RL 모듈이 만든 작업 순서에 따라 MILP 수식이 각 작업을 어느 GPU 노드에 실행할지 결정한다. 제약조건은 이기종성(다양한 GPU 메모리, 연산 능력, PCIe/NVLink 대역폭)과 시스템 제한(노드당 최대 작업 수, 공정성 한도)을 포괄한다. 목표 함수는 RL 보상과 동일하지만 현재 배치에 대해 최적해를 구한다.
- 온라인 루프 – 스케줄러는 슬라이딩 윈도우 방식으로 동작한다. 몇 초마다 대기 중인 작업을 재평가하고, 우선순위를 업데이트하며, MILP를 다시 해결하고, 작업을 배포한다. 이를 통해 워크로드 급증이나 노드 장애에 신속히 대응한다.
- 학습 및 배포 – RL 정책은 과거 트레이스를 이용해 오프라인에서 사전 학습한 뒤, 작은 학습률로 온라인에서 미세 조정하여 변화하는 워크로드에 적응한다.
Results & Findings
| Metric | Baseline (Kubernetes‑GPU) | Prior art (Tiresias) | RLTune |
|---|---|---|---|
| GPU Utilization | 62 % | 68 % | 78 % |
| Avg. Queue Delay | 12 min | 6 min | 2.3 min |
| Avg. Job Completion Time | 4.5 h | 3.2 h | 1.35 h |
| Fairness (JCT variance) | 1.8× | 1.4× | 1.1× |
- 활용도 향상은 주로 MILP가 작은 작업을 활용도가 낮은 GPU에 효율적으로 배치하고, 호환 가능한 작업을 동일 노드에 공동 배치할 수 있기 때문이다.
- 대기열 감소는 RL 우선순위 지정기가 시스템이 혼잡할 때 짧은 실행 시간이나 지연 민감도가 높은 작업을 우선시하도록 학습한 결과이다.
- 작업 완료 시간 개선은 더 나은 패킹과 스마트한 순서 지정이 복합적으로 작용한 결과이며, 특히 고성능 GPU를 독점적으로 사용하던 장기 학습 작업에서 큰 효과를 보인다.
- 시스템은 워크로드 급증 상황에서도 안정적으로 동작하며, RL 컴포넌트가 빠르게 작업 순서를 재조정하고 MILP가 평균 < 200 ms(256 GPU 클러스터 기준) 내에 해결된다.
Practical Implications
- 클라우드 제공업체는 RLTune을 기존 오케스트레이션 레이어(Kubernetes‑GPU, Slurm 등)에 통합해 동일 하드웨어에서 더 많은 작업을 처리함으로써 자본 비용을 절감하고 고객 SLA를 향상시킬 수 있다.
- ML 엔지니어는 학습 작업 대기 시간이 감소해 빠른 반복 사이클과 보다 공격적인 하이퍼파라미터 탐색이 가능해진다.
- 에너지·지속 가능성 – 높은 활용도는 작업당 에너지 소비를 직접 낮추어 친환경 컴퓨팅 목표와 일치한다.
- 멀티 테넌트 공정성 – RL 보상이 공정성을 고려하므로 작은 팀이나 버스트 워크로드가 배제될 위험이 적어, 공유 자원 플랫폼에 필수적이다.
- 확장성 – 하이브리드 RL + MILP 패턴은 TPU, FPGA와 같은 다른 이기종 자원이나 지연 제약이 있는 추론 워크로드 스케줄링에도 재사용될 수 있다.
Limitations & Future Work
- MILP 확장성 – 현재 구현은 약 256 GPU까지 빠르게 해결하지만, 더 큰 클러스터에서는 분해 기법이나 휴리스틱 근사법이 필요할 수 있다.
- 특징 집합의 단순성 – RL 정책이 사용하는 특징이 거친 수준에 머물러 있다. 모델 아키텍처, 데이터 I/O 패턴 등 더 풍부한 신호를 활용하면 예측 정확도가 향상될 수 있지만 오버헤드가 증가한다.
- 콜드 스타트 – 사전 학습된 정책에 의존하므로, 이력이 전혀 없는 신규 클러스터에서는 충분한 데이터가 축적될 때까지 성능이 다소 뒤처질 수 있다.
- 장애 내성 – 논문에서는 노드 장애가 드물다고 가정한다. 작업 중간에 동적 재매핑을 수행하는 등 장애 복구 메커니즘은 향후 연구 과제이다.
- DL 외 일반화 – 그래픽 렌더링, 과학 시뮬레이션 등 비‑DL GPU 워크로드에 RLTune을 적용해 진정한 애플리케이션-agnostic 주장을 검증할 필요가 있다.
전체적으로 RLTune은 학습 기반 우선순위 지정과 고전 최적화를 결합해 이기종 GPU 스케줄링의 복잡성을 해결하는 실용적인 방법을 제시한다. 이를 통해 클라우드 운영자는 더 빠르고, 더 공정하며, 더 효율적인 딥러닝 서비스를 제공할 수 있다.
Authors
- Shruti Dongare
- Redwan Ibne Seraj Khan
- Hadeel Albahar
- Nannan Zhao
- Diego Melendez Maita
- Ali R. Butt
Paper Information
- arXiv ID: 2512.10271v1
- Categories: cs.DC, cs.AI, cs.LG
- Published: December 11, 2025
- PDF: Download PDF