[Paper] inference-fleet-sim: Queueing Theory 기반 플릿 용량 플래너 for LLM 추론
발행: (2026년 3월 17일 AM 10:44 GMT+9)
11 분 소요
원문: arXiv
Source: arXiv - 2603.16054v1
Overview
GPU 플릿을 대규모 언어 모델(LLM) 추론용으로 규모를 정하는 일은 결코 간단하지 않습니다. 새로운 inference‑fleet‑sim 프레임워크는 대기열 이론과 이산 이벤트 시뮬레이션을 결합하여 “몇 개의 GPU가 필요하고, 어떤 유형이며, 어떻게 배치해야 하는가?”라는 질문에 답하면서 지연 시간 서비스 수준 목표(SLO)를 충족시키는 방법을 보여줍니다. 이를 통해 학술적인 성능 모델과 클라우드 운영자 및 AI 제품 팀이 일상적으로 직면하는 용량 계획 과제 사이의 격차를 메워줍니다.
주요 기여
- 통합 플래너: 플릿 규모, GPU 모델(A10G, A100, H100) 및 토폴로지(모노리식, 두 풀 라우팅, 분산)를 동시에 최적화하여 P99 “time‑to‑first‑token”(TTFT) SLO를 최소 비용으로 만족시킵니다.
- 하이브리드 분석‑시뮬레이션 엔진: M/G/c 대기행렬 모델이 빠르고 물리 기반의 성능 추정치를 제공하고, 이산 이벤트 시뮬레이터가 분석 모델만으로는 포착할 수 없는 헤비테일 요청 패턴 및 라우팅 동역학을 캡처합니다.
- GPU 성능 모델: 물리적 하드웨어 없이도 세 가지 주요 NVIDIA GPU(A10G, A100, H100)의 배포 방식별 처리량과 지연 시간을 예측합니다.
- 7가지 현실적인 시나리오에 대한 실증 검증: 공개 LMSYS 및 Azure 트레이스와 합성 “agent‑heavy” 워크로드에서 도출된 시나리오를 사용해, 단순 경험법칙으로는 놓치기 쉬운 플래닝 함정을 드러냅니다.
- 오픈소스 구현(논문에서 추론): 기존 MLOps 파이프라인에 플러그인하여 자동화된 용량 계획에 활용할 수 있습니다.
방법론
- Workload Characterization – 저자들은 실제 추론 로그(LMSYS, Azure)와 무거운 작업을 수행하는 에이전트를 모방한 합성 트레이스에서 토큰 길이 분포와 도착 패턴을 추출합니다.
- Queueing Model (M/G/c) – 각 GPU를 M/G/c 대기행렬 모델의 서버로 간주합니다(포아송 도착, 일반 서비스 시간, c개의 서버). 서비스 시간 분포는 물리 기반 GPU 모델에서 도출되며, 토큰 길이를 각 GPU 유형별 연산 사이클에 매핑합니다.
- Routing Policy – 두 풀(두 종류의 GPU) 플릿의 경우, 임계값 기반 라우터가 요청을 “빠른” 풀(예: H100) 또는 “저렴한” 풀(예: A10G) 중 어느 쪽으로 보낼지 결정합니다. 이 임계값이 의사결정 변수입니다.
- Discrete‑Event Simulation (DES) – 분석 모델은 기준선을 제공하지만, 버스트성 및 헤비테일 트래픽 하에서 큐가 쌓이는 현상을 포착하기 위해 저자들은 요청 도착, 라우팅, GPU 처리 및 대기 지연을 시뮬레이션하는 DES를 실행합니다.
- Optimization Loop – 그리드 탐색 또는 베이지안 탐색을 통해 플릿 규모, GPU 구성, 라우팅 임계값을 전 sweep하면서 각 후보를 DES로 평가하고, P99 TTFT SLO를 만족하는 가장 저렴한 구성을 유지합니다.
- Cost Model – 실제 GPU 시간당 가격(온디맨드, 스팟)을 반영하여 각 후보 플릿의 총 소유 비용을 계산합니다.
결과 및 발견
| 시나리오 | 단순 추정 (예: “모두 H100 사용”) | Inference‑fleet‑sim 최적값 | 단순 추정 대비 비용 절감 |
|---|---|---|---|
| LMSYS 트레이스, 10 k req/s | 120 × H100 (모놀리식) | 80 × H100 + 40 × A100 (두 풀, 512 토큰 기준 분할) | ~30 % |
| Azure 트레이스, 혼합 토큰 길이 | 200 × A10G (단일 풀) | 150 × A10G + 30 × A100 (분산형) | ~22 % |
| 합성 에이전트‑중점 | 50 × H100 (과다 프로비저닝) | 30 × H100 (모놀리식) | ~40 % |
| … | … | … | … |
핵심 정리
- 분할 임계값이 중요 – 빠른 풀과 저렴한 풀 사이 라우팅을 위한 최적 토큰 길이 기준은 직관적이지 않으며, 한 워크로드에서는 256 토큰 임계값이 가장 좋았고, 다른 워크로드에서는 1024 토큰이 최적이었습니다.
- 저렴한 GPU가 우세할 수 있음 – 워크로드에 짧은 요청이 많이 포함될 경우, 더 많은 A10G GPU와 소규모 “버스트” 풀인 A100/H100을 결합하면 비용이 낮아지면서도 P99 TTFT SLO를 충족할 수 있습니다.
- 표면상의 유휴 용량이 숨겨진 병목이 될 수 있음 – 2 풀 구성에서 빠른 풀이 유휴 상태인 반면 느린 풀의 대기열이 증가하여 지연 SLO를 위반할 수 있습니다; 시뮬레이터가 이 불균형을 드러냅니다.
- 순수 분석 모델은 헤비테일 트래픽에서 예측이 빗나감 – M/G/c 추정은 가장 긴 꼬리 요청의 대기 지연을 과소평가하여 단독 사용 시 SLO 위반을 초래합니다.
Source: …
실용적 시사점
- 클라우드 제공업체 및 AI 플랫폼 팀은 inference‑fleet‑sim을 용량‑계획 대시보드에 연결하여 GPU 구매 및 플릿 구성에 대한 자동 권장 사항을 제공함으로써 과다 프로비저닝을 20‑40 % 감소시킬 수 있습니다.
- MLOps 엔지니어는 “what‑if” 샌드박스를 확보하게 됩니다: 새로운 라우팅 정책(예: 동적 임계값, 우선순위 큐)을 프로덕션에 적용하기 전에 테스트할 수 있습니다.
- 비용 인식 개발자는 대부분의 추론 호출에 더 저렴한 GPU 패밀리(A10G)를 사용할지, 장기 컨텍스트나 고처리량 사용 사례에만 프리미엄 GPU를 예약할지 결정할 수 있습니다.
- 프로덕트 매니저는 예산 요청을 정당화하거나 클라우드 벤더와 스팟 인스턴스 계약을 협상할 때 구체적인 수치를 제공받습니다.
- 오픈‑소스 생태계는 이 도구를 다른 가속기(AMD, Habana)나 새로운 추론 패러다임(텐서‑패럴렐 파이프라인, 서버리스 GPU 함수)으로 확장할 수 있습니다.
제한 사항 및 향후 작업
- 포아송 도착을 가정합니다(분석적 M/G/c 부분에 대해); DES가 이를 완화하지만 초기 모델이 초기 탐색 단계에 편향을 줄 수 있습니다.
- GPU 성능 모델은 정적이며—열 스로틀링, 다중 테넌트 간 간섭, 혹은 향후 아키텍처 변화(예: H100을 넘어선 Hopper 기반 GPU)를 고려하지 않습니다.
- 워크로드 차원으로 토큰 길이만 고려합니다; 배치 크기, 모델 크기, 혼합 정밀도 설정 등 다른 요인들이 지연 시간에 영향을 줄 수 있지만 모델링되지 않았습니다.
- 검색 공간은 그리드/베이지안 방법으로 탐색되며, 이는 매우 큰 규모의 플릿이나 더 많은 의사결정 변수(예: 네트워크 토폴로지, 스팟 인스턴스 선점)를 추가할 때 비용이 많이 들 수 있습니다.
- 향후 확장으로 강화 학습 기반 라우팅 정책, 온라인 재최적화를 위한 실시간 텔레메트리, CPU, GPU 및 특수 추론 ASIC을 아우르는 이기종 클러스터 지원 등을 포함할 수 있습니다.
저자
- Huamin Chen
- Xunzhuo Liu
- Yuhan Liu
- Junchen Jiang
- Bowei He
- Xue Liu
논문 정보
- arXiv ID: 2603.16054v1
- 카테고리: cs.DC
- 발행일: 2026년 3월 17일
- PDF: PDF 다운로드