[Paper] WarmServe: 다중 LLM 서빙을 위한 원-대-다 GPU 사전 워밍업 활성화

발행: 2개월 전 (2025년 12월 10일 오후 06:47 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.09472v1

Overview

여러 대형 언어 모델(LLM)을 동일한 GPU 클러스터에 배치하면 전체 활용도를 높일 수 있지만, 사용자가 요청을 처음 보냈을 때 경험하는 지연—즉, time‑to‑first‑token (TTFT)—이 악화되는 경우가 많습니다. 새로운 WarmServe 시스템은 **필요해지기 전에 적절한 모델로 GPU를 예측적으로 “pre‑warming”**함으로써 전통적인 반응형 스케일링 접근 방식을 능동형으로 전환합니다.

Key Contributions

One‑for‑many GPU prewarming: 워크로드 예측에 기반해 범용 GPU 워커를 도입하여 어떤 LLM이든 사전에 준비할 수 있게 합니다.
Evict‑aware placement: 사전 워밍이 클러스터 전체에 비용이 많이 드는 eviction을 초래하지 않도록 모델 배치를 결정하는 스케줄러.
Zero‑overhead memory switching: 추론을 일시 중단하지 않고 GPU 메모리 내 모델 가중치를 교체하는 경량 메커니즘으로, 일반적인 “콜드‑스타트” 지연을 없앱니다.
Real‑world validation: 프로덕션 급 트레이스를 이용한 실험에서 autoscaling 기준 대비 TTFT가 최대 50.8배 빨라지고, 기존 GPU‑공유 솔루션 대비 요청 처리량이 최대 2.5배 증가함을 보여줍니다.

Methodology

Workload Prediction – 저자들은 먼저 프로덕션 로그를 분석하고 LLM 요청 패턴이 매우 주기적임을 확인합니다(예: 일일 피크). 이 예측을 스케줄러에 입력합니다.
Universal GPU Workers – 특정 모델에 GPU를 할당하는 대신, 각 워커는 필요에 따라 어떤 모델이든 로드할 수 있는 경량 런타임을 실행합니다. 워커는 현재 요청이 없더라도 GPU 메모리를 할당하고 커널을 초기화한 상태로 “warm” 상태를 유지합니다.
Evict‑aware Placement – 새로운 요청이 들어오면 WarmServe는 필요한 모델을 로드할 경우 곧 필요해질 다른 모델을 evict하게 되는지를 확인합니다. 그렇다면 다른 GPU를 선택하거나 eviction을 연기하여 메모리 압박과 미래 수요 사이의 균형을 맞춥니다.
Zero‑overhead Switching – 모델 가중치는 고정된 CPU‑측 버퍼에 저장됩니다. 전환이 필요할 때 WarmServe는 필요한 가중치를 미리 할당된 GPU 메모리 영역으로 직접 스트리밍하고, 이를 다른 요청에 대한 진행 중인 추론과 겹쳐 수행합니다. 이를 통해 모델을 처음 로드할 때 발생하는 일반적인 일시 정지를 피합니다.

전체 파이프라인은 기존 서빙 프레임워크(예: TensorRT‑LLM, vLLM) 위에 얇은 레이어로 동작하므로 현재 배포 환경에 쉽게 적용할 수 있습니다.

Results & Findings

Metric	WarmServe vs. Autoscaling	WarmServe vs. GPU‑Sharing
TTFT (median)	+50.8× faster (콜드‑스타트가 ~2 s에서 ~40 ms로 감소)	비슷하지만 전체 처리량이 더 높음
Throughput	GPU당 요청 1.8배 증가	전체적으로 2.5배 증가
GPU Utilization	평균 68 % (autoscaling 45 % 대비)	평균 73 % (단순 공유 55 % 대비)
Memory Overhead	범용 워커 버퍼에 < 5 % 추가	무시할 수준

저자들은 WarmServe의 사전 워밍이 워크로드 급증에 부드럽게 적응한다는 점도 보여줍니다. 예측된 급증이 발생하면 시스템은 이미 필요한 모델을 메모리에 보유하고 있어, 반응형 autoscaler가 겪는 “램프‑업” 지연을 없앨 수 있습니다.

Practical Implications

엔드‑유저 지연 감소: 채팅, 코드 자동완성, 실시간 요약 등 LLM을 활용하는 애플리케이션이 거의 즉시 응답을 제공하여 사용자 경험과 유지율을 향상시킵니다.
GPU 하드웨어 ROI 상승: 동일한 GPU 풀에서 더 많은 요청을 처리함으로써 클라우드 제공업체와 기업은 비용이 많이 드는 하드웨어 업그레이드를 연기할 수 있습니다.
운영 간소화: WarmServe는 autoscaling 임계값 및 모델 배치 정책에 대한 수동 튜닝 필요성을 줄이고, 대부분의 결정이 워크로드 예측기에 의해 이루어집니다.
기존 스택과 호환: WarmServe가 인기 있는 추론 런타임 위에 위치하므로 모델 코드를 재작성하거나 재학습할 필요 없이 도입할 수 있습니다.
엣지 배포 가능성: 범용 워커 개념은 메모리가 제한적이지만 워크로드가 예측 가능한 온‑디바이스 GPU(예: NVIDIA Jetson)에도 확장될 수 있습니다(예: 주기적인 음성 비서 질의).

Limitations & Future Work

예측 의존성: WarmServe의 이점은 정확한 워크로드 예측에 좌우되며, 갑작스럽고 비주기적인 트래픽 급증은 여전히 콜드‑스타트를 초래할 수 있습니다.
메모리 발자국: 범용 워커를 유지하면 약간의 메모리 오버헤드가 발생하며, 매우 작은 GPU에서는 이가 눈에 띌 수 있습니다.
모델 크기 제한: 단일 GPU 메모리를 초과하는 초대형 모델은 여전히 모델 병렬화를 필요로 하는데, 현재 설계에서는 이를 완전히 다루지 못합니다.
향후 방향: 저자들은 강화학습 기반 스케줄러와의 긴밀한 통합, 다중 GPU 모델 샤딩 지원, 그리고 다른 가속기(TPU, ASIC)로의 확장을 제안합니다.

Authors

Chiheng Lou
Sheng Qi
Rui Kang
Yong Zhang
Chen Sun
Pengcheng Wang
Bingyang Liu
Xuanzhe Liu
Xin Jin

Paper Information

arXiv ID: 2512.09472v1
Categories: cs.DC, cs.LG
Published: December 10, 2025
PDF: Download PDF

[Paper] WarmServe: 다중 LLM 서빙을 위한 원-대-다 GPU 사전 워밍업 활성화

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] Particulate: Feed-Forward 3D 객체 관절화

[Paper] 무작위 순차 추가를 통한 고차 상호작용 탐지를 위한 일반 알고리즘

[Paper] Softmax를 Large-Prompt Regime에서 Linear Attention으로: Measure-based Perspective

[Paper] Super Suffixes: 텍스트 생성 정렬 및 Guard 모델을 동시에 우회