[Paper] Revati: 투명한 GPU-Free Time-Warp 에뮬레이션 for LLM Serving

발행: 1개월 전 (2026년 1월 2일 오전 02:19 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.00397v1

Overview

대규모 언어 모델(LLM)을 대규모로 배포하는 것은 각 서빙 구성(배치 크기, 텐서 병렬성, 요청 라우팅 등)을 실제 GPU 하드웨어에서 벤치마크해야 하기 때문에 비용이 많이 들고 시간이 많이 소요되는 작업입니다. Revati는 실제 서빙 코드(예: vLLM, SGLang)를 시뮬레이션 속도로 실행하는 GPU‑free 타임‑워프 에뮬레이터를 도입함으로써 이 병목 현상을 해결합니다. CUDA 호출을 가로채고 실제 커널을 실행하는 대신 가상 시간을 “빠르게 전진”시킴으로써, Revati는 정확한 성능 예측을 제공하면서 평가 시간을 한 차례 정도 단축합니다.

Key Contributions

Transparent GPU virtualization: Intercepts CUDA API calls and emulates device management without requiring any physical GPU.
Time‑warp kernel emulation: Predicts kernel execution time and advances virtual time instantly, preserving the original control flow of the serving framework.
Causality‑preserving coordination protocol: Synchronizes time jumps across distributed processes, ensuring correct ordering of events in multi‑node serving setups.
High fidelity: Achieves < 5 % prediction error across a variety of LLMs (e.g., LLaMA‑7B, 13B) and parallelism strategies.
Speedup of 5–17× over real‑GPU execution, dramatically reducing the cost of configuration search.

Source: …

Methodology

CUDA Interception Layer – Revati는 CUDA 런타임 주위에 얇은 래퍼를 삽입합니다. 메모리를 할당하거나 커널을 실행하거나 디바이스 상태를 조회하는 모든 호출이 캡처됩니다.
Kernel Duration Modeling – 각각의 고유한 커널(런치 파라미터로 식별)에 대해 Revati는 입력 크기에 대한 선형 회귀와 같은 가벼운 통계 모델을 유지하여 대상 GPU에서의 실행 시간을 예측합니다.
Time‑warp Execution – 커널을 실제 GPU에 디스패치하는 대신, Revati는 예측된 지속 시간만큼 가상 시계를 즉시 증가시킵니다. 서비스 코드는 실제 하드웨어에서와 동일한 API 응답을 받지만, 실제 연산은 건너뛰어집니다.
Distributed Coordination – 다중 노드 서빙 환경에서 프로세스들은 다가오는 시간 이동을 알리는 time‑warp 메시지를 교환합니다. 간단한 2단계 커밋을 통해 모든 노드가 새로운 가상 시간에 동의한 후에 진행함으로써 인과 관계 위반을 방지합니다.
Validation Loop – 저자들은 소량의 실제 GPU 실행을 사용해 커널 모델을 보정한 뒤, 여러 모델 및 병렬성 구성에서 전체 서빙 스택(vLLM, SGLang) 위에 Revati를 평가했습니다.

Results & Findings

Scenario	Prediction Error	Speedup vs. Real GPU
vLLM, LLaMA‑7B, 8‑way tensor parallelism	3.8 %	12×
SGLang, LLaMA‑13B, 4‑way pipeline parallelism	4.5 %	9×
Mixed batch sizes, varying request rates	≤ 5 %	5–17×

Accuracy: Across all tested setups, Revati’s latency and throughput estimates stayed within 5 % of the ground‑truth measurements.
Scalability: The coordination protocol added negligible overhead (< 1 % of total runtime) even when emulating 64 distributed workers.
Robustness: The emulator handled dynamic workload changes (e.g., sudden spikes in request arrival) without breaking causality.

실용적인 시사점

빠른 구성 탐색: 팀은 수백 개의 배치‑크기/병렬성 조합을 몇 분 안에 탐색할 수 있어, 몇 시간 걸리던 “성능 튜닝” 사이클을 크게 단축합니다.
비용 절감: 테스트 단계에서 대규모 GPU 클러스터가 필요 없게 함으로써 모델 반복당 수천 달러를 절감합니다.
CI/CD 통합: Revati를 지속적 통합 파이프라인에 연결하여 새로운 서빙 코드 변경이 지연 시간이나 처리량을 저하시키지 않는지 자동으로 검증할 수 있습니다.
하드웨어 비종속 프로파일링: 에뮬레이터가 대상 GPU 모델을 기반으로 실행 시간을 예측하므로, 개발자는 물리적 접근을 기다리지 않고도 향후 하드웨어 세대에서 서빙 스택이 어떻게 동작할지 평가할 수 있습니다.
교육용 도구: 신입 엔지니어가 고가의 GPU 없이도 저수준 서빙 내부(메모리 할당, 커널 실행 패턴)를 실험할 수 있습니다.

제한 사항 및 향후 작업

모델 기반 커널 타이밍: 정확도는 커널 실행 시간 모델의 품질에 좌우됩니다. 특수한 커널이나 새로운 GPU 아키텍처는 재학습이 필요할 수 있습니다.
메모리 대역폭 효과 미반영: Revati는 실제 데이터 이동을 추상화하므로, 실제 하드웨어에서 발생할 수 있는 경쟁 상황이나 메모리 부족 상황을 포착하지 못합니다.
CUDA에 한정: 현재 프로토타입은 NVIDIA의 CUDA 스택에서만 동작합니다. AMD 또는 Intel GPU로 확장하려면 추가적인 인터셉션 레이어가 필요합니다.
향후 방향: 저자들은 메모리 트래픽 모델링을 도입하고, 혼합 정밀도 커널 지원 및 맞춤형 하드웨어 시뮬레이터(예: TPU)를 위한 플러그인 시스템을 구축할 계획입니다.

Revati는 LLM 서빙을 위한 신뢰할 수 있는 성능 수치를 얻기 위해 전체 GPU 팜이 필요 없다는 점을 보여줍니다. 투명한 CUDA 인터셉션과 가벼운 타임워프 엔진을 결합함으로써 더 빠르고 저렴하며 반복적인 배포 파이프라인을 열어줍니다—이는 AI 중심 개발 팀 모두에게 도움이 될 수 있습니다.

저자

Amey Agrawal
Mayank Yadav
Sukrit Kumar
Anirudha Agrawal
Garv Ghai
Souradeep Bera
Elton Pinto
Sirish Gambhira
Mohammad Adain
Kasra Sohrab
Chus Antonanzas
Alexey Tumanov

논문 정보

arXiv ID: 2601.00397v1
분류: cs.DC, cs.LG
출판일: 2026년 1월 1일
PDF: Download PDF

[Paper] Revati: 투명한 GPU-Free Time-Warp 에뮬레이션 for LLM Serving

Overview

Key Contributions

Methodology

Results & Findings

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Cine Cardiac MRI에서 좌심실 자동 분할을 위한 두 가지 Deep Learning 접근법

[Paper] 이성의 기하학: 유효한 수학적 추론의 스펙트럼 서명

[Paper] FedHypeVAE: 차등 프라이버시 임베딩 공유를 위한 Hypernetwork 생성 Conditional VAE를 활용한 Federated Learning

[Paper] 범주형 재파라미터화와 디노이징 디퓨전 모델