[Paper] LLM-Emu: 프로파일 기반 샘플링을 통한 LLM 추론의 네이티브 런타임 에뮬레이션
발행: (2026년 5월 1일 PM 09:35 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2605.00616v1
Overview
LLM‑Emu는 대형 언어 모델(LLM)의 전체 서빙 스택—HTTP 요청 처리, 요청 스케줄링, KV‑캐시 관리, 출력 후처리—을 모방하는 경량 에뮬레이터이며, 비용이 많이 드는 GPU 전방 패스를 빠른 프로파일 기반 지연 스텁으로 교체합니다. 이를 통해 연구자와 엔지니어는 실제 vLLM 배포와 거의 일치하는 결과를 얻으면서도, 거대한 GPU 비용 없이 노트북이나 보통 수준의 CPU 서버에서 현실적인 온라인 서빙 실험을 수행할 수 있습니다.
주요 기여
- Serving‑native emulation: 정확히 동일한 vLLM 코드 경로(HTTP API, 스케줄러, KV‑cache, 토큰 스트리밍)를 재사용하여 에뮬레이터가 실제 프로덕션 시스템처럼 동작하도록 함.
- Profile‑driven sampling: GPU 추론 커널을 몇 개의 마이크로‑벤치마크로 만든 가벼운 레이턴시 모델로 교체하여 상세한 커널‑레벨 모델이 필요 없게 함.
- High fidelity across workloads: 여러 GPU, 모델 패밀리(예: LLaMA, Mistral), 어텐션 백엔드, 그리고 Poisson 및 버스트형 ShareGPT 요청 트레이스를 아우르는 엔드‑투‑엔드 레이턴시, 처리량, 토큰‑퍼‑초 메트릭에서 < 5 % 오차를 달성함.
- Open‑source implementation: 기존 vLLM 배포에 바로 삽입해 빠르게 프로토타이핑할 수 있는 Python 패키지(https://github.com/AKafakA/llm-emu)를 제공함.
방법론
- Instrumentation of vLLM – 저자들은 오픈‑소스 vLLM 서빙 엔진에 계측 코드를 삽입하여 각 요청에 대해 발생하는 정확한 이벤트 순서(도착, 대기열, 배치 형성, KV‑캐시 조회, 토큰 생성, HTTP 응답 스트리밍)를 포착했습니다.
- Latency profiling – 대상 GPU에서 소규모 마이크로‑벤치마크(예: 특정 배치 크기와 시퀀스 길이에 대한 단일 포워드 패스)를 실행하고 실시간 경과 시간을 기록했습니다. 이러한 측정값은 배치 크기, 모델, 어텐션 구현을 기준으로 인덱싱된 조회 테이블에 저장됩니다.
- Synthetic token generation – 무거운 트랜스포머 커널을 실행하는 대신, 에뮬레이터는 샘플링된 지연 시간이 지나면 “더미” 토큰을 삽입하여 실제 모델이 생성할 토큰 수와 타이밍 특성을 그대로 유지합니다.
- Emulation loop – vLLM 파이프라인의 나머지 부분(스케줄러, KV‑캐시, HTTP 스트리밍)은 변경 없이 실행되며, 합성 토큰을 GPU에서 온 것처럼 그대로 소비합니다.
- Evaluation – 저자들은 네 가지 모델 변형(다양한 크기·패밀리)과 두 가지 워크로드 생성기(포아송 도착, 버스트형 ShareGPT 트레이스)를 사용하여 두 GPU(A100, RTX 4090)에서 실제 vLLM 배포와 에뮬레이터를 비교했습니다. 그들은 표준 서빙 지표인 처리량(토큰/초), 종단‑간 지연, 첫 토큰까지 시간(TTFT), 토큰‑당 초당 처리량(TPOT)을 측정했습니다.
결과 및 발견
| 측정항목 | 실제 vLLM | LLM‑Emu | 절대 오차 |
|---|---|---|---|
| 처리량 (토큰/초) | ≈ X | ≈ X ± 1.9 % | ≤ 1.9 % |
| 엔드‑투‑엔드 지연 | ≈ Y ms | ≈ Y ± 5.3 % | ≤ 5.3 % |
| TPOT / ITL | ≈ Z | ≈ Z ± 4.8 % | ≤ 4.8 % |
| TTFT (첫 토큰) | ≈ W | ≈ W ± 10.4 % (최악‑경우) | ≤ 10.4 % |
핵심 요점
- 근접 추적 – 대부분의 지표(처리량, 전체 지연, 토큰‑당‑초)에서 에뮬레이터는 실제 시스템과 몇 퍼센트 이내의 차이를 보이며, 프로파일 기반 스텁이 주요 비용 요인을 잘 포착함을 확인했습니다.
- TTFT 민감도 – 첫 토큰까지의 시간은 대기열 길이와 입장 제어에 크게 좌우되어 변동성이 큽니다; 에뮬레이터의 오차가 급증해 약 10 %까지 올라가며, 지연에 민감한 사용 사례를 연구할 때 워크로드 모델링을 신중히 해야 함을 강조합니다.
- 하드웨어 비종속성 – 동일한 프로파일링 데이터를 다양한 GPU에 그대로 적용할 수 있어, 각 장치마다 전체 지연 모델을 재학습할 필요 없이 접근 방식을 재사용할 수 있음을 보여줍니다.
Practical Implications
- Cost‑effective experimentation – 팀은 일반 하드웨어에서 스케줄링 정책, 배치‑크기 휴리스틱, 혹은 KV‑cache 제거 전략을 반복 적용할 수 있어 GPU 사용 비용을 수천 달러 절감할 수 있습니다.
- Rapid prototyping of new serving features – LLM‑Emu가 전체 HTTP 및 스트리밍 스택을 그대로 유지하기 때문에 개발자는 GPU 계층을 건드리지 않고도 엔드‑투‑엔드 통합(예: 요청 제한, 우선순위 큐)을 테스트할 수 있습니다.
- Benchmarking and capacity planning – 운영자는 대규모 합성 워크로드(수백만 건의 요청)를 실행하여 실제 GPU 자원을 할당하기 전에 필요한 GPU 리소스를 추정할 수 있습니다.
- Education and research – 고성능 GPU에 접근할 수 없는 대학 및 연구실도 여전히 LLM 서빙 동작을 탐구할 수 있어 분야를 보다 포용적으로 만들 수 있습니다.
제한 사항 및 향후 연구
- 극단적인 버스티니스 상황에서의 정확도 – 시스템이 급격한 스파이크를 겪을 때 TTFT 오류가 증가합니다; 보다 정교한 큐‑상태 인식 지연 모델이 이 차이를 줄일 수 있습니다.
- 모델별 미묘한 차이 – 현재 프로파일링은 순전파 지연만을 포착하며, 혼합 정밀도 또는 다중 테넌트 워크로드에서 발생할 수 있는 메모리 대역폭 압력이나 GPU 경쟁을 모델링하지 않습니다.
- vLLM을 넘어 확장 – vLLM이 널리 사용되는 서빙 엔진이지만, 다른 스택(예: TGI, Triton)은 다른 스케줄링 의미론을 가지고 있습니다; LLM‑Emu를 이러한 환경에 적용하는 것은 향후 과제로 남겨둡니다.
- 동적 프로파일링 – 하드웨어 부하가 변할 때 지연을 재샘플링하는 온라인 적응을 도입하면 장기 실험에서도 에뮬레이터의 정확성을 유지할 수 있습니다.
저자
- Wei Da
- Evangelia Kalyvianaki
논문 정보
- arXiv ID: 2605.00616v1
- 분류: cs.DC
- 출판일: 2026년 5월 1일
- PDF: PDF 다운로드