[Paper] Revati: 투명한 GPU-Free Time-Warp 에뮬레이션 for LLM Serving
Source: arXiv - 2601.00397v1
Overview
대규모 언어 모델(LLM)을 대규모로 배포하는 것은 각 서빙 구성(배치 크기, 텐서 병렬성, 요청 라우팅 등)을 실제 GPU 하드웨어에서 벤치마크해야 하기 때문에 비용이 많이 들고 시간이 많이 소요되는 작업입니다. Revati는 실제 서빙 코드(예: vLLM, SGLang)를 시뮬레이션 속도로 실행하는 GPU‑free 타임‑워프 에뮬레이터를 도입함으로써 이 병목 현상을 해결합니다. CUDA 호출을 가로채고 실제 커널을 실행하는 대신 가상 시간을 “빠르게 전진”시킴으로써, Revati는 정확한 성능 예측을 제공하면서 평가 시간을 한 차례 정도 단축합니다.
Key Contributions
- Transparent GPU virtualization: Intercepts CUDA API calls and emulates device management without requiring any physical GPU.
- Time‑warp kernel emulation: Predicts kernel execution time and advances virtual time instantly, preserving the original control flow of the serving framework.
- Causality‑preserving coordination protocol: Synchronizes time jumps across distributed processes, ensuring correct ordering of events in multi‑node serving setups.
- High fidelity: Achieves < 5 % prediction error across a variety of LLMs (e.g., LLaMA‑7B, 13B) and parallelism strategies.
- Speedup of 5–17× over real‑GPU execution, dramatically reducing the cost of configuration search.
Source: …
Methodology
- CUDA Interception Layer – Revati는 CUDA 런타임 주위에 얇은 래퍼를 삽입합니다. 메모리를 할당하거나 커널을 실행하거나 디바이스 상태를 조회하는 모든 호출이 캡처됩니다.
- Kernel Duration Modeling – 각각의 고유한 커널(런치 파라미터로 식별)에 대해 Revati는 입력 크기에 대한 선형 회귀와 같은 가벼운 통계 모델을 유지하여 대상 GPU에서의 실행 시간을 예측합니다.
- Time‑warp Execution – 커널을 실제 GPU에 디스패치하는 대신, Revati는 예측된 지속 시간만큼 가상 시계를 즉시 증가시킵니다. 서비스 코드는 실제 하드웨어에서와 동일한 API 응답을 받지만, 실제 연산은 건너뛰어집니다.
- Distributed Coordination – 다중 노드 서빙 환경에서 프로세스들은 다가오는 시간 이동을 알리는 time‑warp 메시지를 교환합니다. 간단한 2단계 커밋을 통해 모든 노드가 새로운 가상 시간에 동의한 후에 진행함으로써 인과 관계 위반을 방지합니다.
- Validation Loop – 저자들은 소량의 실제 GPU 실행을 사용해 커널 모델을 보정한 뒤, 여러 모델 및 병렬성 구성에서 전체 서빙 스택(vLLM, SGLang) 위에 Revati를 평가했습니다.
Results & Findings
| Scenario | Prediction Error | Speedup vs. Real GPU |
|---|---|---|
| vLLM, LLaMA‑7B, 8‑way tensor parallelism | 3.8 % | 12× |
| SGLang, LLaMA‑13B, 4‑way pipeline parallelism | 4.5 % | 9× |
| Mixed batch sizes, varying request rates | ≤ 5 % | 5–17× |
- Accuracy: Across all tested setups, Revati’s latency and throughput estimates stayed within 5 % of the ground‑truth measurements.
- Scalability: The coordination protocol added negligible overhead (< 1 % of total runtime) even when emulating 64 distributed workers.
- Robustness: The emulator handled dynamic workload changes (e.g., sudden spikes in request arrival) without breaking causality.
실용적인 시사점
- 빠른 구성 탐색: 팀은 수백 개의 배치‑크기/병렬성 조합을 몇 분 안에 탐색할 수 있어, 몇 시간 걸리던 “성능 튜닝” 사이클을 크게 단축합니다.
- 비용 절감: 테스트 단계에서 대규모 GPU 클러스터가 필요 없게 함으로써 모델 반복당 수천 달러를 절감합니다.
- CI/CD 통합: Revati를 지속적 통합 파이프라인에 연결하여 새로운 서빙 코드 변경이 지연 시간이나 처리량을 저하시키지 않는지 자동으로 검증할 수 있습니다.
- 하드웨어 비종속 프로파일링: 에뮬레이터가 대상 GPU 모델을 기반으로 실행 시간을 예측하므로, 개발자는 물리적 접근을 기다리지 않고도 향후 하드웨어 세대에서 서빙 스택이 어떻게 동작할지 평가할 수 있습니다.
- 교육용 도구: 신입 엔지니어가 고가의 GPU 없이도 저수준 서빙 내부(메모리 할당, 커널 실행 패턴)를 실험할 수 있습니다.
제한 사항 및 향후 작업
- 모델 기반 커널 타이밍: 정확도는 커널 실행 시간 모델의 품질에 좌우됩니다. 특수한 커널이나 새로운 GPU 아키텍처는 재학습이 필요할 수 있습니다.
- 메모리 대역폭 효과 미반영: Revati는 실제 데이터 이동을 추상화하므로, 실제 하드웨어에서 발생할 수 있는 경쟁 상황이나 메모리 부족 상황을 포착하지 못합니다.
- CUDA에 한정: 현재 프로토타입은 NVIDIA의 CUDA 스택에서만 동작합니다. AMD 또는 Intel GPU로 확장하려면 추가적인 인터셉션 레이어가 필요합니다.
- 향후 방향: 저자들은 메모리 트래픽 모델링을 도입하고, 혼합 정밀도 커널 지원 및 맞춤형 하드웨어 시뮬레이터(예: TPU)를 위한 플러그인 시스템을 구축할 계획입니다.
Revati는 LLM 서빙을 위한 신뢰할 수 있는 성능 수치를 얻기 위해 전체 GPU 팜이 필요 없다는 점을 보여줍니다. 투명한 CUDA 인터셉션과 가벼운 타임워프 엔진을 결합함으로써 더 빠르고 저렴하며 반복적인 배포 파이프라인을 열어줍니다—이는 AI 중심 개발 팀 모두에게 도움이 될 수 있습니다.
저자
- Amey Agrawal
- Mayank Yadav
- Sukrit Kumar
- Anirudha Agrawal
- Garv Ghai
- Souradeep Bera
- Elton Pinto
- Sirish Gambhira
- Mohammad Adain
- Kasra Sohrab
- Chus Antonanzas
- Alexey Tumanov
논문 정보
- arXiv ID: 2601.00397v1
- 분류: cs.DC, cs.LG
- 출판일: 2026년 1월 1일
- PDF: Download PDF