[Paper] DALI: 효율적인 MoE 추론을 위한 워크로드 인식 오프로드 프레임워크 (로컬 PC)

발행: (2026년 2월 3일 오후 10:11 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.03495v1

Overview

Mixture‑of‑Experts (MoE) 모델은 대형 언어 모델(LLM)이 계산량에 비례하지 않게 용량을 확장할 수 있게 하지만, 파라미터 수가 급증해 일반 데스크톱 PC에서 실행하기 어렵게 만든다. DALI (Workload‑Aware Offloading)는 MoE 전문가들을 GPU와 호스트 CPU 사이에 지능적으로 분할하고, 추론 중 각 전문가가 마주하는 동적 워크로드를 고려한 방식으로 사전 로드 및 캐시함으로써 이를 해결한다. 그 결과 일반 하드웨어에서 초기 프롬프트 처리(prefill)와 토큰‑바이‑토큰 생성(decoding) 모두에서 눈에 띄는 속도 향상을 제공한다.

주요 기여

  • Dynamic expert placement – CPU/GPU 전문가 할당을 0‑1 정수 최적화 문제로 정의하고, 빠른 탐욕 알고리즘으로 런타임에 해결하여 정적 할당으로 인한 부하 불균형을 없앱니다.
  • Residual‑Based Prefetching – 층 간 잔차 활성화를 이용해 다음 단계에서 “핫”이 될 전문가를 예측함으로써 프리패치 정확도를 크게 향상시킵니다.
  • Workload‑Aware Cache Replacement – 전문가 사용의 시간적 상관관계를 활용하는 GPU 캐시 정책을 도입해, 단순 LRU/LFU 방식에 비해 캐시 적중률을 높입니다.
  • Comprehensive evaluation – 표준 PC(단일 GPU + CPU)에서 프리필 및 디코딩 단계 모두에 걸쳐 다양한 MoE 모델(예: Switch‑Transformer, GLaM)에서 2×‑3× 속도 향상을 입증합니다.

방법론

  1. 작업 부하 프로파일링 – 추론 중에 DALI는 레이어당 각 전문가에게 라우팅된 토큰 수를 모니터링하여 가벼운 “전문가 부하 벡터”를 구축합니다.
  2. 탐욕적 할당 – 부하 벡터는 현재 단계에서 어떤 전문가를 GPU(빠르지만 메모리 제한)에서 실행하고, 어떤 전문가를 CPU(용량은 크지만 느림)에서 실행할지 결정하는 0‑1 정수 프로그램에 입력됩니다. 탐욕적 휴리스틱은 메모리 한도를 고려하면서 GPU에 가장 큰 영향을 미치는 전문가들을 선택하고, 매 단계마다 재평가합니다.
  3. 잔차 기반 프리패치 – 과거 토큰 수만을 기반으로 추측하는 대신, DALI는 잔차(현재 활성화와 레이어 평균의 차이)를 살펴 다음에 토큰 급증을 받을 전문가를 예측합니다. 해당 전문가들은 CPU RAM에서 GPU 메모리로 미리 프리패치됩니다.
  4. 캐시 교체 정책 – GPU 캐시는 최근 전문가 활성화를 추적하고, 간단한 시간‑상관 점수를 사용하여 곧 필요하지 않을 전문가들을 제거합니다. 이는 가장 오래된 사용자를 제거하는 LRU 방식과 다릅니다.
  5. 기존 런타임과의 통합 – DALI는 인기 있는 PyTorch 기반 MoE 라이브러리 위에 얇은 래퍼로 구축되어 사용자가 최소한의 코드 변경만 하면 됩니다.

Results & Findings

모델 / 설정베이스라인 (예: DeepSpeed‑MoE)DALI속도 향상 (Prefill)속도 향상 (Decoding)
Switch‑Transformer (8B)12 ms / token6 ms / token2.0×2.3×
GLaM (64B)28 ms / token11 ms / token2.5×2.8×
Varying GPU memory (8 GB → 4 GB)급격히 악화동적 배치를 통해 안정적으로 유지
  • 로드 밸런스: CPU/GPU 활용도가 약 45 %/55 %로 수렴 (정적 방식에서는 70 %/30 %와 비교).
  • 프리패치 정확도: 잔차 기반 방법이 필요한 전문가의 > 90 %를 탐지, 단순 토큰 수 예측기에서는 약 65 %에 불과.
  • 캐시 적중률: 워크로드 인식 정책이 GPU 캐시 적중률을 약 40 %에서 70 %로 향상.

전체적으로 DALI는 단일 GPU 데스크톱에서 엔드‑투‑엔드 지연 시간을 최대 **3×**까지 줄이며, 메모리 사용량을 일반 소비자 GPU 한도 내에 유지합니다.

실용적 함의

  • Desktop‑level LLM 서빙 – 개발자는 이제 멀티‑GPU 클러스터 없이도 노트북이나 워크스테이션에서 MoE‑기반 LLM(예: 코드 완성, 챗봇)을 호스팅할 수 있습니다.
  • 비용 효율적인 추론 – 기업은 모델의 큰 부분을 호스트 RAM으로 오프로드하고 DALI의 스마트 배치를 활용해 성능을 유지함으로써 클라우드 GPU 비용을 절감할 수 있습니다.
  • 프레임워크 통합 – DALI가 기존 PyTorch MoE 파이프라인에 플러그인 형태로 연결되므로, Hugging Face Transformers, DeepSpeed, 혹은 Megatron‑LM을 이미 사용 중인 프로젝트에 최소한의 리팩터링으로 도입할 수 있습니다.
  • 엣지‑투‑클라우드 하이브리드 배포 – 동일한 워크로드 인식 원칙을 모델의 일부가 원격 서버에, 일부가 엣지 디바이스에 존재하는 시나리오에 확장하여 대역폭과 지연 시간을 최적화할 수 있습니다.

Limitations & Future Work

  • CPU bottleneck on very high‑throughput workloads – CPU가 포화 상태가 될 때(예: 초저지연 서비스) DALI의 동적 배치가 GPU를 충분히 활용하지 못할 수 있습니다.
  • Heuristic nature of greedy assignment – 빠르긴 하지만, 탐욕 알고리즘은 전역 최적해를 보장하지 않으며, 더 정교한 솔버를 사용하면 오버헤드가 증가하는 대신 배치를 개선할 수 있습니다.
  • Model‑specific tuning – 잔차 기반 예측기는 Switch‑Transformer와 GLaM에 맞춰 튜닝되었으며, 다른 MoE 변형에서는 별도의 보정이 필요할 수 있습니다.
  • Future directions suggested by the authors include:
    1. DALI를 다중 GPU 환경으로 확장하기.
    2. 강화 학습을 통한 학습된 배치 정책 탐색.
    3. 원격 메모리 오프로드 시나리오를 위한 대역폭 인식 프리패칭 통합.

저자

  • Zeyu Zhu
  • Gang Li
  • Peisong Wang
  • Zitao Mo
  • Minnan Pei
  • Zhuoran Song
  • Xiaoyao Liang
  • Jian Cheng

논문 정보

  • arXiv ID: 2602.03495v1
  • 카테고리: cs.DC, cs.LG
  • 발행일: 2026년 2월 3일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[논문] Pseudo-Invertible Neural Networks

Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.