[Paper] DALI: 효율적인 MoE 추론을 위한 워크로드 인식 오프로드 프레임워크 (로컬 PC)

발행: 5일 전 (2026년 2월 3일 오후 10:11 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.03495v1

Overview

Mixture‑of‑Experts (MoE) 모델은 대형 언어 모델(LLM)이 계산량에 비례하지 않게 용량을 확장할 수 있게 하지만, 파라미터 수가 급증해 일반 데스크톱 PC에서 실행하기 어렵게 만든다. DALI (Workload‑Aware Offloading)는 MoE 전문가들을 GPU와 호스트 CPU 사이에 지능적으로 분할하고, 추론 중 각 전문가가 마주하는 동적 워크로드를 고려한 방식으로 사전 로드 및 캐시함으로써 이를 해결한다. 그 결과 일반 하드웨어에서 초기 프롬프트 처리(prefill)와 토큰‑바이‑토큰 생성(decoding) 모두에서 눈에 띄는 속도 향상을 제공한다.

주요 기여

Dynamic expert placement – CPU/GPU 전문가 할당을 0‑1 정수 최적화 문제로 정의하고, 빠른 탐욕 알고리즘으로 런타임에 해결하여 정적 할당으로 인한 부하 불균형을 없앱니다.
Residual‑Based Prefetching – 층 간 잔차 활성화를 이용해 다음 단계에서 “핫”이 될 전문가를 예측함으로써 프리패치 정확도를 크게 향상시킵니다.
Workload‑Aware Cache Replacement – 전문가 사용의 시간적 상관관계를 활용하는 GPU 캐시 정책을 도입해, 단순 LRU/LFU 방식에 비해 캐시 적중률을 높입니다.
Comprehensive evaluation – 표준 PC(단일 GPU + CPU)에서 프리필 및 디코딩 단계 모두에 걸쳐 다양한 MoE 모델(예: Switch‑Transformer, GLaM)에서 2×‑3× 속도 향상을 입증합니다.

방법론

작업 부하 프로파일링 – 추론 중에 DALI는 레이어당 각 전문가에게 라우팅된 토큰 수를 모니터링하여 가벼운 “전문가 부하 벡터”를 구축합니다.
탐욕적 할당 – 부하 벡터는 현재 단계에서 어떤 전문가를 GPU(빠르지만 메모리 제한)에서 실행하고, 어떤 전문가를 CPU(용량은 크지만 느림)에서 실행할지 결정하는 0‑1 정수 프로그램에 입력됩니다. 탐욕적 휴리스틱은 메모리 한도를 고려하면서 GPU에 가장 큰 영향을 미치는 전문가들을 선택하고, 매 단계마다 재평가합니다.
잔차 기반 프리패치 – 과거 토큰 수만을 기반으로 추측하는 대신, DALI는 잔차(현재 활성화와 레이어 평균의 차이)를 살펴 다음에 토큰 급증을 받을 전문가를 예측합니다. 해당 전문가들은 CPU RAM에서 GPU 메모리로 미리 프리패치됩니다.
캐시 교체 정책 – GPU 캐시는 최근 전문가 활성화를 추적하고, 간단한 시간‑상관 점수를 사용하여 곧 필요하지 않을 전문가들을 제거합니다. 이는 가장 오래된 사용자를 제거하는 LRU 방식과 다릅니다.
기존 런타임과의 통합 – DALI는 인기 있는 PyTorch 기반 MoE 라이브러리 위에 얇은 래퍼로 구축되어 사용자가 최소한의 코드 변경만 하면 됩니다.

Results & Findings

모델 / 설정	베이스라인 (예: DeepSpeed‑MoE)	DALI	속도 향상 (Prefill)	속도 향상 (Decoding)
Switch‑Transformer (8B)	12 ms / token	6 ms / token	2.0×	2.3×
GLaM (64B)	28 ms / token	11 ms / token	2.5×	2.8×
Varying GPU memory (8 GB → 4 GB)	급격히 악화	동적 배치를 통해 안정적으로 유지	–	–

로드 밸런스: CPU/GPU 활용도가 약 45 %/55 %로 수렴 (정적 방식에서는 70 %/30 %와 비교).
프리패치 정확도: 잔차 기반 방법이 필요한 전문가의 > 90 %를 탐지, 단순 토큰 수 예측기에서는 약 65 %에 불과.
캐시 적중률: 워크로드 인식 정책이 GPU 캐시 적중률을 약 40 %에서 70 %로 향상.

전체적으로 DALI는 단일 GPU 데스크톱에서 엔드‑투‑엔드 지연 시간을 최대 **3×**까지 줄이며, 메모리 사용량을 일반 소비자 GPU 한도 내에 유지합니다.

실용적 함의

Desktop‑level LLM 서빙 – 개발자는 이제 멀티‑GPU 클러스터 없이도 노트북이나 워크스테이션에서 MoE‑기반 LLM(예: 코드 완성, 챗봇)을 호스팅할 수 있습니다.
비용 효율적인 추론 – 기업은 모델의 큰 부분을 호스트 RAM으로 오프로드하고 DALI의 스마트 배치를 활용해 성능을 유지함으로써 클라우드 GPU 비용을 절감할 수 있습니다.
프레임워크 통합 – DALI가 기존 PyTorch MoE 파이프라인에 플러그인 형태로 연결되므로, Hugging Face Transformers, DeepSpeed, 혹은 Megatron‑LM을 이미 사용 중인 프로젝트에 최소한의 리팩터링으로 도입할 수 있습니다.
엣지‑투‑클라우드 하이브리드 배포 – 동일한 워크로드 인식 원칙을 모델의 일부가 원격 서버에, 일부가 엣지 디바이스에 존재하는 시나리오에 확장하여 대역폭과 지연 시간을 최적화할 수 있습니다.

Limitations & Future Work

CPU bottleneck on very high‑throughput workloads – CPU가 포화 상태가 될 때(예: 초저지연 서비스) DALI의 동적 배치가 GPU를 충분히 활용하지 못할 수 있습니다.
Heuristic nature of greedy assignment – 빠르긴 하지만, 탐욕 알고리즘은 전역 최적해를 보장하지 않으며, 더 정교한 솔버를 사용하면 오버헤드가 증가하는 대신 배치를 개선할 수 있습니다.
Model‑specific tuning – 잔차 기반 예측기는 Switch‑Transformer와 GLaM에 맞춰 튜닝되었으며, 다른 MoE 변형에서는 별도의 보정이 필요할 수 있습니다.
Future directions suggested by the authors include:
1. DALI를 다중 GPU 환경으로 확장하기.
2. 강화 학습을 통한 학습된 배치 정책 탐색.
3. 원격 메모리 오프로드 시나리오를 위한 대역폭 인식 프리패칭 통합.

저자

Zeyu Zhu
Gang Li
Peisong Wang
Zitao Mo
Minnan Pei
Zhuoran Song
Xiaoyao Liang
Jian Cheng

논문 정보

arXiv ID: 2602.03495v1
카테고리: cs.DC, cs.LG
발행일: 2026년 2월 3일
PDF: Download PDF

[Paper] DALI: 효율적인 MoE 추론을 위한 워크로드 인식 오프로드 프레임워크 (로컬 PC)

Overview

주요 기여

방법론

Results & Findings

실용적 함의

Limitations & Future Work

저자

논문 정보

관련 글

[논문] Pseudo-Invertible Neural Networks

[Paper] 거의 엄격한 지속 학습을 위한 공유 LoRA 서브스페이스

[Paper] DyTopo: 시맨틱 매칭을 통한 다중 에이전트 추론을 위한 동적 토폴로지 라우팅

[Paper] CommCP: 효율적인 다중 에이전트 협조를 위한 LLM 기반 커뮤니케이션과 컨포멀 프레딕션