[Paper] DALI: 효율적인 MoE 추론을 위한 워크로드 인식 오프로드 프레임워크 (로컬 PC)
Source: arXiv - 2602.03495v1
Overview
Mixture‑of‑Experts (MoE) 모델은 대형 언어 모델(LLM)이 계산량에 비례하지 않게 용량을 확장할 수 있게 하지만, 파라미터 수가 급증해 일반 데스크톱 PC에서 실행하기 어렵게 만든다. DALI (Workload‑Aware Offloading)는 MoE 전문가들을 GPU와 호스트 CPU 사이에 지능적으로 분할하고, 추론 중 각 전문가가 마주하는 동적 워크로드를 고려한 방식으로 사전 로드 및 캐시함으로써 이를 해결한다. 그 결과 일반 하드웨어에서 초기 프롬프트 처리(prefill)와 토큰‑바이‑토큰 생성(decoding) 모두에서 눈에 띄는 속도 향상을 제공한다.
주요 기여
- Dynamic expert placement – CPU/GPU 전문가 할당을 0‑1 정수 최적화 문제로 정의하고, 빠른 탐욕 알고리즘으로 런타임에 해결하여 정적 할당으로 인한 부하 불균형을 없앱니다.
- Residual‑Based Prefetching – 층 간 잔차 활성화를 이용해 다음 단계에서 “핫”이 될 전문가를 예측함으로써 프리패치 정확도를 크게 향상시킵니다.
- Workload‑Aware Cache Replacement – 전문가 사용의 시간적 상관관계를 활용하는 GPU 캐시 정책을 도입해, 단순 LRU/LFU 방식에 비해 캐시 적중률을 높입니다.
- Comprehensive evaluation – 표준 PC(단일 GPU + CPU)에서 프리필 및 디코딩 단계 모두에 걸쳐 다양한 MoE 모델(예: Switch‑Transformer, GLaM)에서 2×‑3× 속도 향상을 입증합니다.
방법론
- 작업 부하 프로파일링 – 추론 중에 DALI는 레이어당 각 전문가에게 라우팅된 토큰 수를 모니터링하여 가벼운 “전문가 부하 벡터”를 구축합니다.
- 탐욕적 할당 – 부하 벡터는 현재 단계에서 어떤 전문가를 GPU(빠르지만 메모리 제한)에서 실행하고, 어떤 전문가를 CPU(용량은 크지만 느림)에서 실행할지 결정하는 0‑1 정수 프로그램에 입력됩니다. 탐욕적 휴리스틱은 메모리 한도를 고려하면서 GPU에 가장 큰 영향을 미치는 전문가들을 선택하고, 매 단계마다 재평가합니다.
- 잔차 기반 프리패치 – 과거 토큰 수만을 기반으로 추측하는 대신, DALI는 잔차(현재 활성화와 레이어 평균의 차이)를 살펴 다음에 토큰 급증을 받을 전문가를 예측합니다. 해당 전문가들은 CPU RAM에서 GPU 메모리로 미리 프리패치됩니다.
- 캐시 교체 정책 – GPU 캐시는 최근 전문가 활성화를 추적하고, 간단한 시간‑상관 점수를 사용하여 곧 필요하지 않을 전문가들을 제거합니다. 이는 가장 오래된 사용자를 제거하는 LRU 방식과 다릅니다.
- 기존 런타임과의 통합 – DALI는 인기 있는 PyTorch 기반 MoE 라이브러리 위에 얇은 래퍼로 구축되어 사용자가 최소한의 코드 변경만 하면 됩니다.
Results & Findings
| 모델 / 설정 | 베이스라인 (예: DeepSpeed‑MoE) | DALI | 속도 향상 (Prefill) | 속도 향상 (Decoding) |
|---|---|---|---|---|
| Switch‑Transformer (8B) | 12 ms / token | 6 ms / token | 2.0× | 2.3× |
| GLaM (64B) | 28 ms / token | 11 ms / token | 2.5× | 2.8× |
| Varying GPU memory (8 GB → 4 GB) | 급격히 악화 | 동적 배치를 통해 안정적으로 유지 | – | – |
- 로드 밸런스: CPU/GPU 활용도가 약 45 %/55 %로 수렴 (정적 방식에서는 70 %/30 %와 비교).
- 프리패치 정확도: 잔차 기반 방법이 필요한 전문가의 > 90 %를 탐지, 단순 토큰 수 예측기에서는 약 65 %에 불과.
- 캐시 적중률: 워크로드 인식 정책이 GPU 캐시 적중률을 약 40 %에서 70 %로 향상.
전체적으로 DALI는 단일 GPU 데스크톱에서 엔드‑투‑엔드 지연 시간을 최대 **3×**까지 줄이며, 메모리 사용량을 일반 소비자 GPU 한도 내에 유지합니다.
실용적 함의
- Desktop‑level LLM 서빙 – 개발자는 이제 멀티‑GPU 클러스터 없이도 노트북이나 워크스테이션에서 MoE‑기반 LLM(예: 코드 완성, 챗봇)을 호스팅할 수 있습니다.
- 비용 효율적인 추론 – 기업은 모델의 큰 부분을 호스트 RAM으로 오프로드하고 DALI의 스마트 배치를 활용해 성능을 유지함으로써 클라우드 GPU 비용을 절감할 수 있습니다.
- 프레임워크 통합 – DALI가 기존 PyTorch MoE 파이프라인에 플러그인 형태로 연결되므로, Hugging Face Transformers, DeepSpeed, 혹은 Megatron‑LM을 이미 사용 중인 프로젝트에 최소한의 리팩터링으로 도입할 수 있습니다.
- 엣지‑투‑클라우드 하이브리드 배포 – 동일한 워크로드 인식 원칙을 모델의 일부가 원격 서버에, 일부가 엣지 디바이스에 존재하는 시나리오에 확장하여 대역폭과 지연 시간을 최적화할 수 있습니다.
Limitations & Future Work
- CPU bottleneck on very high‑throughput workloads – CPU가 포화 상태가 될 때(예: 초저지연 서비스) DALI의 동적 배치가 GPU를 충분히 활용하지 못할 수 있습니다.
- Heuristic nature of greedy assignment – 빠르긴 하지만, 탐욕 알고리즘은 전역 최적해를 보장하지 않으며, 더 정교한 솔버를 사용하면 오버헤드가 증가하는 대신 배치를 개선할 수 있습니다.
- Model‑specific tuning – 잔차 기반 예측기는 Switch‑Transformer와 GLaM에 맞춰 튜닝되었으며, 다른 MoE 변형에서는 별도의 보정이 필요할 수 있습니다.
- Future directions suggested by the authors include:
- DALI를 다중 GPU 환경으로 확장하기.
- 강화 학습을 통한 학습된 배치 정책 탐색.
- 원격 메모리 오프로드 시나리오를 위한 대역폭 인식 프리패칭 통합.
저자
- Zeyu Zhu
- Gang Li
- Peisong Wang
- Zitao Mo
- Minnan Pei
- Zhuoran Song
- Xiaoyao Liang
- Jian Cheng
논문 정보
- arXiv ID: 2602.03495v1
- 카테고리: cs.DC, cs.LG
- 발행일: 2026년 2월 3일
- PDF: Download PDF