[Paper] WarmServe: 다중 LLM 서빙을 위한 원-대-다 GPU 사전 워밍업 활성화
Source: arXiv - 2512.09472v1
Overview
여러 대형 언어 모델(LLM)을 동일한 GPU 클러스터에 배치하면 전체 활용도를 높일 수 있지만, 사용자가 요청을 처음 보냈을 때 경험하는 지연—즉, time‑to‑first‑token (TTFT)—이 악화되는 경우가 많습니다. 새로운 WarmServe 시스템은 **필요해지기 전에 적절한 모델로 GPU를 예측적으로 “pre‑warming”**함으로써 전통적인 반응형 스케일링 접근 방식을 능동형으로 전환합니다.
Key Contributions
- One‑for‑many GPU prewarming: 워크로드 예측에 기반해 범용 GPU 워커를 도입하여 어떤 LLM이든 사전에 준비할 수 있게 합니다.
- Evict‑aware placement: 사전 워밍이 클러스터 전체에 비용이 많이 드는 eviction을 초래하지 않도록 모델 배치를 결정하는 스케줄러.
- Zero‑overhead memory switching: 추론을 일시 중단하지 않고 GPU 메모리 내 모델 가중치를 교체하는 경량 메커니즘으로, 일반적인 “콜드‑스타트” 지연을 없앱니다.
- Real‑world validation: 프로덕션 급 트레이스를 이용한 실험에서 autoscaling 기준 대비 TTFT가 최대 50.8배 빨라지고, 기존 GPU‑공유 솔루션 대비 요청 처리량이 최대 2.5배 증가함을 보여줍니다.
Methodology
- Workload Prediction – 저자들은 먼저 프로덕션 로그를 분석하고 LLM 요청 패턴이 매우 주기적임을 확인합니다(예: 일일 피크). 이 예측을 스케줄러에 입력합니다.
- Universal GPU Workers – 특정 모델에 GPU를 할당하는 대신, 각 워커는 필요에 따라 어떤 모델이든 로드할 수 있는 경량 런타임을 실행합니다. 워커는 현재 요청이 없더라도 GPU 메모리를 할당하고 커널을 초기화한 상태로 “warm” 상태를 유지합니다.
- Evict‑aware Placement – 새로운 요청이 들어오면 WarmServe는 필요한 모델을 로드할 경우 곧 필요해질 다른 모델을 evict하게 되는지를 확인합니다. 그렇다면 다른 GPU를 선택하거나 eviction을 연기하여 메모리 압박과 미래 수요 사이의 균형을 맞춥니다.
- Zero‑overhead Switching – 모델 가중치는 고정된 CPU‑측 버퍼에 저장됩니다. 전환이 필요할 때 WarmServe는 필요한 가중치를 미리 할당된 GPU 메모리 영역으로 직접 스트리밍하고, 이를 다른 요청에 대한 진행 중인 추론과 겹쳐 수행합니다. 이를 통해 모델을 처음 로드할 때 발생하는 일반적인 일시 정지를 피합니다.
전체 파이프라인은 기존 서빙 프레임워크(예: TensorRT‑LLM, vLLM) 위에 얇은 레이어로 동작하므로 현재 배포 환경에 쉽게 적용할 수 있습니다.
Results & Findings
| Metric | WarmServe vs. Autoscaling | WarmServe vs. GPU‑Sharing |
|---|---|---|
| TTFT (median) | +50.8× faster (콜드‑스타트가 ~2 s에서 ~40 ms로 감소) | 비슷하지만 전체 처리량이 더 높음 |
| Throughput | GPU당 요청 1.8배 증가 | 전체적으로 2.5배 증가 |
| GPU Utilization | 평균 68 % (autoscaling 45 % 대비) | 평균 73 % (단순 공유 55 % 대비) |
| Memory Overhead | 범용 워커 버퍼에 < 5 % 추가 | 무시할 수준 |
저자들은 WarmServe의 사전 워밍이 워크로드 급증에 부드럽게 적응한다는 점도 보여줍니다. 예측된 급증이 발생하면 시스템은 이미 필요한 모델을 메모리에 보유하고 있어, 반응형 autoscaler가 겪는 “램프‑업” 지연을 없앨 수 있습니다.
Practical Implications
- 엔드‑유저 지연 감소: 채팅, 코드 자동완성, 실시간 요약 등 LLM을 활용하는 애플리케이션이 거의 즉시 응답을 제공하여 사용자 경험과 유지율을 향상시킵니다.
- GPU 하드웨어 ROI 상승: 동일한 GPU 풀에서 더 많은 요청을 처리함으로써 클라우드 제공업체와 기업은 비용이 많이 드는 하드웨어 업그레이드를 연기할 수 있습니다.
- 운영 간소화: WarmServe는 autoscaling 임계값 및 모델 배치 정책에 대한 수동 튜닝 필요성을 줄이고, 대부분의 결정이 워크로드 예측기에 의해 이루어집니다.
- 기존 스택과 호환: WarmServe가 인기 있는 추론 런타임 위에 위치하므로 모델 코드를 재작성하거나 재학습할 필요 없이 도입할 수 있습니다.
- 엣지 배포 가능성: 범용 워커 개념은 메모리가 제한적이지만 워크로드가 예측 가능한 온‑디바이스 GPU(예: NVIDIA Jetson)에도 확장될 수 있습니다(예: 주기적인 음성 비서 질의).
Limitations & Future Work
- 예측 의존성: WarmServe의 이점은 정확한 워크로드 예측에 좌우되며, 갑작스럽고 비주기적인 트래픽 급증은 여전히 콜드‑스타트를 초래할 수 있습니다.
- 메모리 발자국: 범용 워커를 유지하면 약간의 메모리 오버헤드가 발생하며, 매우 작은 GPU에서는 이가 눈에 띌 수 있습니다.
- 모델 크기 제한: 단일 GPU 메모리를 초과하는 초대형 모델은 여전히 모델 병렬화를 필요로 하는데, 현재 설계에서는 이를 완전히 다루지 못합니다.
- 향후 방향: 저자들은 강화학습 기반 스케줄러와의 긴밀한 통합, 다중 GPU 모델 샤딩 지원, 그리고 다른 가속기(TPU, ASIC)로의 확장을 제안합니다.
Authors
- Chiheng Lou
- Sheng Qi
- Rui Kang
- Yong Zhang
- Chen Sun
- Pengcheng Wang
- Bingyang Liu
- Xuanzhe Liu
- Xin Jin
Paper Information
- arXiv ID: 2512.09472v1
- Categories: cs.DC, cs.LG
- Published: December 10, 2025
- PDF: Download PDF