[Paper] 단계적 배치 스케줄링: 고효율 LLM 추론을 위한 Time-to-First-Token 및 Throughput 공동 최적화

발행: (2025년 12월 18일 오후 12:45 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.16134v1

개요

이 논문은 현대 대형 언어 모델(LLM) 서비스 스택에서 **데이터 병렬(DP)**과 전문가 병렬(EP) 단계로 작업을 분할할 때 발생하는 미묘하지만 비용이 큰 비효율성을 다룹니다. 이러한 “DP+EP” 파이프라인에서는 각 요청을 바로 모델에 보내면 내부 대기 “버블”이 생성되어 첫 토큰까지 시간(TTFT)—사용자가 가장 크게 느끼는 지연—을 늦춥니다. 저자들은 **Staggered Batch Scheduling (SBS)**이라는 가벼운 버퍼링 전략을 제안합니다. 이 전략은 요청을 약간 지연시켜 잘 채워진 배치를 구성하고, 동시에 DP 복제본 간에 부하를 재분배합니다. Deepseek‑V3를 서비스하는 H800‑GPU 클러스터에서 수행한 프로덕션 수준 실험 결과, 기존 즉시 디스패치 스케줄러에 비해 TTFT가 30‑40 % 감소하고 처리량이 15‑20 % 증가함을 보여줍니다.

주요 기여

  • Staggered Batch Scheduling (SBS): 들어오는 쿼리를 버퍼링하여 DP+EP 파이프라인에 최적의 배치 크기를 만들고 엔진 내부 대기 버블을 제거하는 간단한 “hold‑and‑release” 메커니즘.
  • Load‑Aware Global Allocation: prefill(프롬프트 처리)와 decode(토큰 단위 생성) 작업을 DP 복제본 전체에 고르게 분산시켜 핫스팟을 방지하는 동적 시스템 전역 부하 균형 정책.
  • Real‑world deployment: 64‑GPU H800 클러스터에서 프로덕션 급 Deepseek‑V3 서빙 스택에 SBS와 부하 인식 할당자를 통합하여 측정 가능한 지연 시간 및 처리량 향상을 입증함.
  • Comprehensive evaluation: 현실적인 트래픽 패턴 하에서 최첨단 즉시 디스패치 스케줄러와 SBS를 비교하는 광범위한 마이크로 벤치마크 및 엔드‑투‑엔드 사용자 테스트.
  • Open‑source insights: 저자들은 재현성과 채택을 돕기 위해 상세 설계 다이어그램, 스케줄링 알고리즘, 프로파일링 스크립트를 공개함.

Methodology

  1. Problem Characterization

    • 저자들은 먼저 전형적인 DP+EP 서빙 파이프라인(프리필은 DP에서, 전문가 라우팅은 EP에서, 디코드는 다시 DP에서)을 프로파일링합니다.
    • 즉시 요청 디스패치가 **비동기 “버블”**을 생성한다는 것을 발견합니다: 일부 DP 워커가 EP 단계가 끝나기를 기다리는 동안 유휴 상태가 되어 TTFT가 증가합니다.
  2. Staggered Batch Scheduling (SBS)

    • 들어오는 요청은 작은 시간‑윈도우 버퍼(예: 5–20 ms)에 배치됩니다.
    • 버퍼가 가득 차거나 윈도우가 만료되면 스케줄러는 DP와 EP 커널에 최적의 텐서 형태를 맞추는 배치를 형성합니다.
    • 그 배치는 원자적으로 디스패치되어 모든 DP 워커가 동시에 시작하도록 보장함으로써 내부 큐잉을 제거합니다.
  3. Load‑Aware Global Allocation

    • 시스템은 DP 복제본들의 전역 부하 맵(프리필 및 디코드 워크로드)을 유지합니다.
    • 배치를 구성할 때 할당자는 예상 부하가 가장 낮은 DP 복제본을 선택하여 두 단계 모두를 균형 있게 배분합니다.
    • 이 알고리즘은 요청당 O(1) 시간 복잡도를 가지므로 고처리량 환경에 적합합니다.
  4. Implementation & Deployment

    • DeepSpeed‑Inference 스택에 통합되었으며, 코드 변경량은 최소(~200 LOC)입니다.
    • H800 GPU 클러스터(8 × 8 = 64 GPU)에서 7‑B‑parameter Deepseek‑V3 모델을 서빙하도록 배포되었습니다.
    • 트래픽은 짧은 프롬프트(≤ 64 토큰)와 긴 생성 요청(≤ 1024 토큰)의 현실적인 혼합을 사용해 생성되었습니다.
  5. Evaluation

    • 측정 지표: TTFT, 전체 지연 시간, 처리량(토큰 / 초), 그리고 GPU 활용도.
    • 비교 대상: 즉시 디스패치 스케줄러와 단순 “고정‑크기 배치” 스케줄러.
    • 실험은 일중 부하 변동을 포착하기 위해 48 시간 동안 수행되었습니다.

결과 및 발견

지표즉시 디스패치고정 크기 배치계단식 배치 (SBS)
TTFT 감소30 %–40 %
처리량 증가15 %–20 %
GPU 활용도 (평균)68 %73 %81 %
99번째 백분위 지연시간1.8 s1.5 s1.1 s
  • TTFT가 개선됩니다. 모든 DP 작업자가 프리필을 동시에 시작하여 초기 지연을 지배하는 “전문가 대기” 정체를 방지합니다.
  • 처리량이 스케줄러가 대기 시간을 없애고 EP 단계가 완전히 점유되도록 함에 따라 증가합니다.
  • 로드 인식 할당기는 특히 디코드가 많은 작업 부하에서 단일 DP 복제본이 병목이 되는 것을 방지합니다.
  • 프로파일링 결과 엔진 내부 큐 깊이가 30 % 감소했음을 보여주며 핵심 가설을 확인합니다.

Practical Implications

  • LLM SaaS providers는 사용자 인지 지연 시간을 줄이기 위해 몇 줄의 코드만으로 SBS를 도입할 수 있으며, 이는 핵심 경쟁 차별화 요소가 됩니다.
  • Edge‑to‑cloud inference pipelines가 이미 DP+EP(예: MoE 모델)를 사용하고 있다면 하드웨어 변경 없이도 이점을 얻을 수 있습니다—SBS는 순전히 스케줄러 수준에서 작동합니다.
  • Cost efficiency: GPU 활용도가 높아지면 토큰당 추론 비용이 낮아져 동일한 하드웨어 예산으로 더 저렴한 가격 책정이나 더 높은 요청량을 지원할 수 있습니다.
  • Developer ergonomics: 이 접근 방식은 프레임워크에 구애받지 않으며, 저자들은 DeepSpeed와의 통합을 시연했지만 동일한 아이디어를 TensorRT‑LLM, vLLM 또는 맞춤형 추론 서버에도 적용할 수 있습니다.
  • Latency‑sensitive applications(채팅봇, 코드 어시스턴트, 실시간 번역 등)은 첫 토큰이 더 빠르게 나타나므로, 트래픽이 급증하는 상황에서도 보다 부드러운 사용자 경험을 제공합니다.

제한 사항 및 향후 작업

  • Buffering trade‑off: SBS는 작은, 설정 가능한 지연(몇 밀리초)을 도입합니다. 초저지연 시나리오(< 5 ms)에서는 눈에 띌 수 있습니다.
  • Model‑specific tuning: 최적의 버퍼 윈도우와 배치 크기는 모델 크기, 토큰 길이 분포, 하드웨어에 따라 달라집니다; 논문은 휴리스틱을 제공하지만 자동 튜너는 없습니다.
  • Scalability beyond a single cluster: 현재 글로벌 로드 맵은 공유 제어 플레인을 가정합니다; 다지역 또는 다클라우드 배포로 확장하려면 계층형 스케줄링이 필요합니다.
  • Future directions suggested by the authors include:
    • 실시간 트래픽 통계에 기반한 적응형 윈도우 크기 조정.
    • MoE 모델의 전문가 가중치 prefetching 통합.
    • 시간이 지남에 따라 최적 배치 형성 정책을 학습하는 reinforcement‑learning‑based 스케줄러 탐색.

저자

  • Jian Tian
  • Shuailong Li
  • Yang Cao
  • Wenbo Cui
  • Minghan Zhu
  • Wenkang Wu
  • Jianming Zhang
  • Yanpeng Wang
  • Zhiwen Xiao
  • Zhenyu Hou
  • Dou Shen

논문 정보

  • arXiv ID: 2512.16134v1
  • Categories: cs.DC, cs.LG
  • Published: 2025년 12월 18일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 추론이 법칙을 만날 때

대규모 추론 모델(LRMs)의 우수한 성능에도 불구하고, 그들의 추론 행동은 종종 직관에 반하여 최적 이하의 추론 능력을 초래한다.