[Paper] 단계적 배치 스케줄링: 고효율 LLM 추론을 위한 Time-to-First-Token 및 Throughput 공동 최적화

발행: 1개월 전 (2025년 12월 18일 오후 12:45 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.16134v1

개요

이 논문은 현대 대형 언어 모델(LLM) 서비스 스택에서 **데이터 병렬(DP)**과 전문가 병렬(EP) 단계로 작업을 분할할 때 발생하는 미묘하지만 비용이 큰 비효율성을 다룹니다. 이러한 “DP+EP” 파이프라인에서는 각 요청을 바로 모델에 보내면 내부 대기 “버블”이 생성되어 첫 토큰까지 시간(TTFT)—사용자가 가장 크게 느끼는 지연—을 늦춥니다. 저자들은 **Staggered Batch Scheduling (SBS)**이라는 가벼운 버퍼링 전략을 제안합니다. 이 전략은 요청을 약간 지연시켜 잘 채워진 배치를 구성하고, 동시에 DP 복제본 간에 부하를 재분배합니다. Deepseek‑V3를 서비스하는 H800‑GPU 클러스터에서 수행한 프로덕션 수준 실험 결과, 기존 즉시 디스패치 스케줄러에 비해 TTFT가 30‑40 % 감소하고 처리량이 15‑20 % 증가함을 보여줍니다.

주요 기여

Staggered Batch Scheduling (SBS): 들어오는 쿼리를 버퍼링하여 DP+EP 파이프라인에 최적의 배치 크기를 만들고 엔진 내부 대기 버블을 제거하는 간단한 “hold‑and‑release” 메커니즘.
Load‑Aware Global Allocation: prefill(프롬프트 처리)와 decode(토큰 단위 생성) 작업을 DP 복제본 전체에 고르게 분산시켜 핫스팟을 방지하는 동적 시스템 전역 부하 균형 정책.
Real‑world deployment: 64‑GPU H800 클러스터에서 프로덕션 급 Deepseek‑V3 서빙 스택에 SBS와 부하 인식 할당자를 통합하여 측정 가능한 지연 시간 및 처리량 향상을 입증함.
Comprehensive evaluation: 현실적인 트래픽 패턴 하에서 최첨단 즉시 디스패치 스케줄러와 SBS를 비교하는 광범위한 마이크로 벤치마크 및 엔드‑투‑엔드 사용자 테스트.
Open‑source insights: 저자들은 재현성과 채택을 돕기 위해 상세 설계 다이어그램, 스케줄링 알고리즘, 프로파일링 스크립트를 공개함.

Methodology

Problem Characterization
- 저자들은 먼저 전형적인 DP+EP 서빙 파이프라인(프리필은 DP에서, 전문가 라우팅은 EP에서, 디코드는 다시 DP에서)을 프로파일링합니다.
- 즉시 요청 디스패치가 **비동기 “버블”**을 생성한다는 것을 발견합니다: 일부 DP 워커가 EP 단계가 끝나기를 기다리는 동안 유휴 상태가 되어 TTFT가 증가합니다.
Staggered Batch Scheduling (SBS)
- 들어오는 요청은 작은 시간‑윈도우 버퍼(예: 5–20 ms)에 배치됩니다.
- 버퍼가 가득 차거나 윈도우가 만료되면 스케줄러는 DP와 EP 커널에 최적의 텐서 형태를 맞추는 배치를 형성합니다.
- 그 배치는 원자적으로 디스패치되어 모든 DP 워커가 동시에 시작하도록 보장함으로써 내부 큐잉을 제거합니다.
Load‑Aware Global Allocation
- 시스템은 DP 복제본들의 전역 부하 맵(프리필 및 디코드 워크로드)을 유지합니다.
- 배치를 구성할 때 할당자는 예상 부하가 가장 낮은 DP 복제본을 선택하여 두 단계 모두를 균형 있게 배분합니다.
- 이 알고리즘은 요청당 O(1) 시간 복잡도를 가지므로 고처리량 환경에 적합합니다.
Implementation & Deployment
- DeepSpeed‑Inference 스택에 통합되었으며, 코드 변경량은 최소(~200 LOC)입니다.
- H800 GPU 클러스터(8 × 8 = 64 GPU)에서 7‑B‑parameter Deepseek‑V3 모델을 서빙하도록 배포되었습니다.
- 트래픽은 짧은 프롬프트(≤ 64 토큰)와 긴 생성 요청(≤ 1024 토큰)의 현실적인 혼합을 사용해 생성되었습니다.
Evaluation
- 측정 지표: TTFT, 전체 지연 시간, 처리량(토큰 / 초), 그리고 GPU 활용도.
- 비교 대상: 즉시 디스패치 스케줄러와 단순 “고정‑크기 배치” 스케줄러.
- 실험은 일중 부하 변동을 포착하기 위해 48 시간 동안 수행되었습니다.

결과 및 발견

지표	즉시 디스패치	고정 크기 배치	계단식 배치 (SBS)
TTFT 감소	–	–	30 %–40 %
처리량 증가	–	–	15 %–20 %
GPU 활용도 (평균)	68 %	73 %	81 %
99번째 백분위 지연시간	1.8 s	1.5 s	1.1 s

TTFT가 개선됩니다. 모든 DP 작업자가 프리필을 동시에 시작하여 초기 지연을 지배하는 “전문가 대기” 정체를 방지합니다.
처리량이 스케줄러가 대기 시간을 없애고 EP 단계가 완전히 점유되도록 함에 따라 증가합니다.
로드 인식 할당기는 특히 디코드가 많은 작업 부하에서 단일 DP 복제본이 병목이 되는 것을 방지합니다.
프로파일링 결과 엔진 내부 큐 깊이가 30 % 감소했음을 보여주며 핵심 가설을 확인합니다.

Practical Implications

LLM SaaS providers는 사용자 인지 지연 시간을 줄이기 위해 몇 줄의 코드만으로 SBS를 도입할 수 있으며, 이는 핵심 경쟁 차별화 요소가 됩니다.
Edge‑to‑cloud inference pipelines가 이미 DP+EP(예: MoE 모델)를 사용하고 있다면 하드웨어 변경 없이도 이점을 얻을 수 있습니다—SBS는 순전히 스케줄러 수준에서 작동합니다.
Cost efficiency: GPU 활용도가 높아지면 토큰당 추론 비용이 낮아져 동일한 하드웨어 예산으로 더 저렴한 가격 책정이나 더 높은 요청량을 지원할 수 있습니다.
Developer ergonomics: 이 접근 방식은 프레임워크에 구애받지 않으며, 저자들은 DeepSpeed와의 통합을 시연했지만 동일한 아이디어를 TensorRT‑LLM, vLLM 또는 맞춤형 추론 서버에도 적용할 수 있습니다.
Latency‑sensitive applications(채팅봇, 코드 어시스턴트, 실시간 번역 등)은 첫 토큰이 더 빠르게 나타나므로, 트래픽이 급증하는 상황에서도 보다 부드러운 사용자 경험을 제공합니다.

제한 사항 및 향후 작업

Buffering trade‑off: SBS는 작은, 설정 가능한 지연(몇 밀리초)을 도입합니다. 초저지연 시나리오(< 5 ms)에서는 눈에 띌 수 있습니다.
Model‑specific tuning: 최적의 버퍼 윈도우와 배치 크기는 모델 크기, 토큰 길이 분포, 하드웨어에 따라 달라집니다; 논문은 휴리스틱을 제공하지만 자동 튜너는 없습니다.
Scalability beyond a single cluster: 현재 글로벌 로드 맵은 공유 제어 플레인을 가정합니다; 다지역 또는 다클라우드 배포로 확장하려면 계층형 스케줄링이 필요합니다.
Future directions suggested by the authors include:
- 실시간 트래픽 통계에 기반한 적응형 윈도우 크기 조정.
- MoE 모델의 전문가 가중치 prefetching 통합.
- 시간이 지남에 따라 최적 배치 형성 정책을 학습하는 reinforcement‑learning‑based 스케줄러 탐색.

저자

Jian Tian
Shuailong Li
Yang Cao
Wenbo Cui
Minghan Zhu
Wenkang Wu
Jianming Zhang
Yanpeng Wang
Zhiwen Xiao
Zhenyu Hou
Dou Shen

논문 정보

arXiv ID: 2512.16134v1
Categories: cs.DC, cs.LG
Published: 2025년 12월 18일
PDF: Download PDF

[Paper] 단계적 배치 스케줄링: 고효율 LLM 추론을 위한 Time-to-First-Token 및 Throughput 공동 최적화

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Re-Depth Anything: 테스트 시 자기지도 재조명을 통한 깊이 정제

[Paper] Open Foundation Models에서 Vision의 적대적 견고성

[Paper] 추론이 법칙을 만날 때

[Paper] Distributionally Robust Imitation Learning: Certifiable Autonomy를 위한 Layered Control Architecture