[Paper] TokenScale: 시기적절하고 정확한 자동 스케일링을 위한 토큰 속도 기반 분산형 LLM 서빙

발행: (2025년 12월 3일 오후 12:45 GMT+9)
6 min read
원문: arXiv

Source: arXiv - 2512.03416v1

Overview

이 논문은 차세대 “prefill‑decode”(PD) 분산 서비스 환경을 위한 새로운 자동 스케일링 프레임워크 TokenScale을 소개한다. Token Velocity라는 전방 예측 메트릭과 Convertible Decoders라는 유연한 하드웨어 프리미티브를 도입함으로써, TokenScale은 기존 솔루션보다 훨씬 빠르게 트래픽 급증에 대응하여 지연 위반을 감소시키고 컴퓨팅 비용을 절감한다.

Key Contributions

  • Token Velocity metric – prefill, network, decode 단계 전반에 걸친 작업량을 포착하는 통합·세분화된 지표로, 과부하에 대한 조기 경고 신호 역할을 한다.
  • Convertible Decoders – 디코더 GPU가 급증 시 일시적으로 prefill 작업을 수행하도록 하는 하드웨어 인식 설계로, 새로운 prefill 노드를 프로비저닝하는 데 소요되는 워밍업 지연을 없앤다.
  • Predictive autoscaling policy – Token Velocity와 경량 컨트롤러를 결합해 자원을 사전적으로 확장·축소한다.
  • Comprehensive evaluation – GPU 클러스터에서 실제 프로덕션 트레이스를 사용한 실험 결과, SLO 준수율이 50‑88 %에서 80‑96 %로 상승하고, 비용이 최신 시스템(DistServe, BlitzScale, AIBrix) 대비 4‑14 % 감소함을 보여준다.

Methodology

  1. Metric Design – 저자들은 PD 파이프라인에 각 단계별 초당 토큰 수를 측정하는 계측기를 삽입한다. 이 “token velocity”는 요청 급증에 뒤처지는 GPU 활용률과 달리 실제 처리 압력을 반영한다.
  2. System Architecture – 디코더 GPU에 경량 “conversion” 레이어를 추가해 순수 디코드 모드에서 필요 시 prefill 배치를 처리할 수 있는 하이브리드 모드로 전환한다.
  3. Autoscaling Controller – 간단한 임계값 기반 컨트롤러가 token velocity를 모니터링한다. 속도가 상한선을 초과하면 먼저 convertible decoders를 활성화하고, 압력이 지속되면 추가 prefill 워커를 기동한다. 하한선과 쿨다운 기간을 두어 축소 시 스래싱을 방지한다.
  4. Experimental Setup – 팀은 16‑GPU 클러스터에서 실제 프로덕션 요청 트레이스(버스트 트래픽 포함)를 재생했다. 비교 대상은 DistServe, BlitzScale, AIBrix이며, 각각 권장 정책으로 설정했다. 수집된 메트릭은 TTFT, TPOT, SLO 달성률, 총 GPU‑hour 비용이다.

Results & Findings

MetricDistServe / BlitzScale / AIBrixTokenScale
SLO attainment (TTFT + TPOT)50 % – 88 %80 % – 96 %
Average TTFT1.8 s1.2 s
Average TPOT0.45 s/token0.33 s/token
GPU‑hour costBaseline‑4 % to ‑14 %
  • Token Velocity는 버스트 발생 후 밀리초 단위로 반응하여 convertible decoders를 거의 즉시 활성화한다.
  • Convertible decoders는 피크 트래픽의 약 30 %까지 새로운 prefill 노드를 띄우지 않고 흡수한다.
  • 사전 확장은 큐 적체를 감소시켜 TTFT와 TPOT를 직접적으로 낮춘다.

Practical Implications

  • Lower Latency for End‑Users – LLM API를 제공하는 서비스(예: 챗 어시스턴트, 코드 생성 도구)에서 더 엄격한 지연 SLA를 만족시켜 사용자 경험을 향상시킬 수 있다.
  • Cost‑Effective Scaling – 클라우드 운영자는 유휴 prefill 인스턴스를 줄이고, 보다 풍부한 디코더 GPU를 버스트 처리에 활용함으로써 전체 GPU‑hour 비용을 절감할 수 있다.
  • Simplified Ops – Token Velocity는 계측이 용이하고 하드웨어 카운터에 깊게 의존하지 않아 NVIDIA, AMD, 혹은 새로운 가속기 패브릭 등 이기종 클러스터에서도 적용 가능하다.
  • Portability – Convertible decoder 개념은 기존 추론 런타임(vLLM, TensorRT‑LLM 등) 위에 소프트웨어 shim 형태로 구현될 수 있어 하드웨어 재설계 없이 단계적 도입이 가능하다.

Limitations & Future Work

  • Hardware Dependency – Convertible decoders는 디코더 GPU에 충분한 여유 연산 능력이 있을 때만 효과적이며, 디코드 전용 워크로드가 과다하면 이점이 감소할 수 있다.
  • Metric Sensitivity – Token Velocity 임계값은 모델 크기와 배치 패턴에 따라 조정이 필요하고, 자동 보정 루틴은 아직 제공되지 않는다.
  • Multi‑Tenant Scenarios – 본 논문은 단일 테넌트 워크로드에 초점을 맞추었으며, 공정성을 보장하는 다중 테넌트 클러스터로 확장하는 것은 아직 해결되지 않은 과제이다.
  • Future Directions – 저자들은 적응형 임계값 학습(예: 강화 학습)과 토큰 수준 우선순위 스케줄링을 혼합 우선순위 요청에 적용하는 방안을 탐색할 계획이다.

Authors

  • Ruiqi Lai
  • Hongrui Liu
  • Chengzhi Lu
  • Zonghao Liu
  • Siyu Cao
  • Siyang Shao
  • Yixin Zhang
  • Luo Mai
  • Dmitrii Ustiugov

Paper Information

  • arXiv ID: 2512.03416v1
  • Categories: cs.DC
  • Published: December 3, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »