[Paper] OD-MoE: 온디맨드 전문가 로딩을 위한 캐시 없는 엣지 분산 MoE 추론
Source: arXiv - 2512.03927v1
Overview
이 논문은 OD‑MoE라는 새로운 추론 프레임워크를 소개한다. 이 프레임워크는 Mixture‑of‑Experts (MoE) 언어 모델이 전문가 가중치를 위한 전용 GPU 캐시 없이도 작은 엣지 디바이스에서 실행될 수 있게 한다. 전문가들을 온‑디맨드로 분산된 노드 풀에서 로드하고, 필요할 전문가를 미리 예측함으로써 OD‑MoE는 GPU 메모리 요구량을 크게 줄이면서도 실용적인 수준의 추론 속도를 유지한다.
Key Contributions
- 캐시‑프리 전문가 로딩: 기존의 GPU‑상주 전문가 캐시를 없애 GPU 메모리가 < 1 GB인 환경에서도 MoE 추론이 가능하도록 한다.
- 분산 온‑디맨드 로딩: 전문가 전송과 연산을 여러 엣지 노드에 걸쳐 병렬화하여, 다음 전문가가 필요해지기 직전에 준비된다.
- 초고정밀 에뮬레이티브 예측기: 경량 예측기가 99.94 % 정확도로 여러 레이어 앞선 전문가 활성화를 예측하며, 기존 오프로드 방식보다 훨씬 높은 성능을 보인다.
- 포괄적 벤치마크: OD‑MoE가 GPU 메모리를 1/3만 사용하면서도 전체 캐시된 MoE의 디코딩 처리량의 약 75 %에 도달함을 10노드 테스트베드에서 검증하였다.
Methodology
- 시스템 아키텍처 – OD‑MoE는 엣지 디바이스 클러스터를 공유 메모리 패브릭으로 취급한다. 각 노드는 전체 전문가 풀의 일부를 CPU 메모리에 보관한다.
- 병렬 로딩 및 실행 – 현재 레이어의 전문가가 GPU에서 연산되는 동안, 백그라운드 스레드가 원격 노드에서 다음에 필요한 전문가들을 GPU로 스트리밍한다. 전문가의 포워드 패스가 끝나면 즉시 캐시에서 제거되어 다음 전문가를 위한 공간이 확보된다.
- 에뮬레이티브 예측 엔진 – 각 레이어에서 라우팅 결정을 기다리는 대신, OD‑MoE는 라우팅 로직을 미리 모방하는 작은 “에뮬레이터”를 실행한다(예: 2‑3 레이어 앞선 예측). 이 에뮬레이터는 입력 토큰 임베딩과 라우팅 로짓만 사용해 나중에 활성화될 정확한 전문가 집합을 예측한다.
- Just‑In‑Time (JIT) 스케줄링 – 예측기의 출력은 각 전문가를 가장 빠르게 전달할 수 있는 노드에 할당하는 스케줄러를 구동한다. 네트워크 지연과 GPU 메모리 압박을 균형 있게 고려한다.
전체 파이프라인은 논블로킹으로 설계되었으며, GPU 연산이 데이터 대기 때문에 멈추지 않고 네트워크 트래픽이 모델 실행과 겹쳐 진행된다.
Results & Findings
| Metric | OD‑MoE | Prior Offloading (e.g., DeepSpeed‑MoE) | Fully Cached MoE |
|---|---|---|---|
| Expert activation prediction accuracy | 99.94 % | ~85 % | N/A (always correct) |
| Decoding speed (tokens/s) | 0.75× of fully cached | 0.45× | 1× |
| GPU memory usage | ≈ 1/3 of fully cached | 0.5× | 1× |
| Minimum GPU memory to run MoE | < 1 GB | ~2 GB | > 3 GB |
핵심 요약
- 예측기의 거의 완벽한 정확도로 인해 잘못 예측된 전문가 로드가 거의 없으며, 비용이 많이 드는 롤백을 방지한다.
- 전송과 연산을 겹쳐 수행함으로써 캐시되지 않은 경우 발생하는 속도 손실을 대부분 회복한다.
- 메모리 절감 효과가 크게 나타나, Jetson Nano, RTX 3050 등 일반적인 엣지 GPU에서도 MoE 배포가 가능해진다.
Practical Implications
- 엣지 AI 서비스: 개발자는 이제 저비용 IoT 게이트웨이에서 정교한 LLM‑스타일 어시스턴트를 호스팅할 수 있어, 클라우드 왕복 없이 디바이스 내에서 프라이버시를 보장한 추론이 가능하다.
- 확장 가능한 추론 팜: 저렴한 엣지 노드들을 모아 대형 MoE 모델을 공동으로 서비스함으로써 고메모리 GPU 서버에 대한 의존도를 낮출 수 있다.
- 동적 워크로드 균형: JIT 스케줄러는 전력 예산이나 네트워크 혼잡도 등을 고려하도록 확장될 수 있어, 모바일이나 배터리 구동 디바이스에도 적합하다.
- 단순화된 배포 파이프라인: “인기 있는” 전문가를 미리 캐시해 두는 작업이 필요 없으며, 시스템이 런타임에 자동으로 활성화 패턴을 학습해 엔지니어링 오버헤드를 감소시킨다.
Limitations & Future Work
- 네트워크 의존성: 노드 간 대역폭이나 지연이 급증하면 성능이 저하된다; 논문은 고속 LAN을 전제로 한다.
- 예측기 오버헤드: 경량이라 하더라도 에뮬레이티브 예측기가 추가 연산을 요구하므로, 초저전력 CPU에서는 눈에 띄는 부하가 될 수 있다.
- 10노드 이상 확장성: 실험은 최대 10노드까지 진행했으며, 더 큰 클러스터에서는 스케줄링 복잡도와 경쟁이 증가할 수 있다.
- 모델 종류: 연구는 MoE 기반 LLM에 초점을 맞추었으며, 동일한 온‑디맨드 로딩을 Switch Transformer와 같은 다른 희소 아키텍처에 적용하는 것은 아직 미해결이다.
향후 연구 방향으로는 적응형 대역폭 인식 스케줄링, 이종 가속기(TPU, NPU)와의 통합, 그리고 파인튜닝 중에 변하는 동적 라우팅 정책을 처리할 수 있는 예측기 확장이 포함된다.
Authors
- Liujianfu Wang
- Yuyang Du
- Yuchen Pan
- Soung Chang Liew
- Jiacheng Liu
- Kexin Chen
Paper Information
- arXiv ID: 2512.03927v1
- Categories: cs.DC
- Published: December 3, 2025
- PDF: Download PDF