[Paper] Janus: 확장 가능한 MoE 추론을 위해 Attention과 Experts를 분리
Source: arXiv - 2512.13525v1
Overview
이 논문은 Janus라는 시스템을 소개합니다. 이 시스템은 대규모 Mixture‑of‑Experts (MoE) 모델의 attention과 expert 구성 요소를 분리하여 별도의 GPU 서브‑클러스터에서 실행합니다. 이 두 부분을 독립적인 워크로드로 취급함으로써 Janus는 각각에 적절한 자원을 할당할 수 있어 추론 확장성을 크게 향상시키고 실시간 애플리케이션의 지연 시간을 크게 줄입니다.
핵심 기여
- Disaggregated execution – attention과 expert 모듈을 별개의 GPU 그룹에 배치하여 독립적인 스케일링을 가능하게 함.
- Adaptive two‑phase communication – intra‑node 및 inter‑node 대역폭 계층을 활용해 최소 오버헤드로 데이터를 교환.
- Lightweight GPU‑kernel scheduler – 활성 expert 수를 실시간으로 GPU 간에 균형 맞추어 메모리 병목을 감소.
- Fine‑grained resource manager – expert를 동적으로 재배치하고 attention과 MoE 클러스터 크기를 조정해 지연 시간 목표를 충족.
- Performance gains – 기존 MoE 추론 시스템 대비 GPU당 최대 3.9배 높은 처리량을 달성하면서 토큰당 지연 시간 예산을 유지.
방법론
-
시스템 파티셔닝 – 저자들은 MoE 모델을 두 개의 논리적 단계로 나눕니다:
- (a) 어텐션 단계 (표준 트랜스포머 자체‑어텐션)
- (b) 전문가 단계 (희소 피드‑포워드 레이어).
각 단계는 자체 GPU 서브‑클러스터에서 실행됩니다.
-
두 단계 통신
- Phase 1: 노드 내부에서 고속 NVLink 또는 PCIe가 어텐션 GPU와 전문가 GPU 사이에 토큰 표현을 교환합니다.
- Phase 2: 노드 간에는 대역폭을 인식하는 집합 연산(예: NCCL 기반 all‑gather)을 사용해 활성화된 전문가 출력만 이동시켜 노드 간 트래픽을 최소화합니다.
-
GPU‑커널 스케줄러 – 맞춤형 커널이 토큰당 선택된 전문가 수를 모니터링하고 작업을 재분배하여 어느 GPU도 병목이 되지 않도록 합니다. MoE 추론은 메모리‑바운드이므로, 스케줄러는 CPU‑GPU 동기화 지연을 피하기 위해 직접 GPU에서 실행됩니다.
-
동적 자원 관리 – 컨트롤러가 런타임 메트릭(처리량, 지연 시간, GPU 메모리 사용량)을 관찰하고 다음을 수행할 수 있습니다:
- (i) 어텐션 또는 전문가 서브‑클러스터에서 GPU를 추가하거나 제거하고,
- (ii) 부하 균형을 유지하기 위해 전문가 가중치를 GPU 간에 이동합니다.
모든 구성 요소는 기존 딥러닝 프레임워크(예: PyTorch) 위에 구축되었으며 표준 CUDA/NCCL 프리미티브를 사용하므로 일반 데이터센터 GPU 팰릿에 이식이 용이합니다.
결과 및 발견
| 지표 | Janus | Baseline MoE System | 속도‑up |
|---|---|---|---|
| GPU당 처리량 (tokens/s) | 3.9× 높음 | – | 3.9× |
| 95‑번째 백분위수 토큰당 지연시간 (BERT‑large‑MoE) | ≤ 12 ms | 20 ms | 1.7× 낮음 |
| GPU 메모리 활용도 (attention vs. expert) | 45 % / 78 % (균형) | 70 % / 70 % (과다 할당) | – |
| 확장 효율성 (최대 64 GPUs) | 85 % | 55 % | – |
핵심 요약
- 두 모듈을 분리하면 “모두에게 동일한” 자원 할당 문제를 없앨 수 있다.
- 적응형 통신 스킴은 기존의 단순 all‑gather 방식에 비해 노드 간 트래픽을 최대 **60 %**까지 감소시킨다.
- GPU‑커널 스케줄러는 추론 단계당 0.5 ms 이하의 오버헤드만 추가하면서 전문가 활성화를 고르게 분산한다.
Practical Implications
- Cost‑effective inference – 클라우드 제공업체는 필요할 때만 작은 어텐션 클러스터와 큰 전문가 클러스터를 가동하여 GPU 임대 비용을 절감할 수 있습니다.
- Latency‑critical services – 실시간 추천, 검색, 혹은 대화형 AI는 전체 MoE 모델을 과도하게 프로비저닝하지 않고도 토큰당 10 ms 미만 목표를 달성할 수 있습니다.
- Simplified deployment pipelines – Janus가 표준 CUDA/NCCL 및 PyTorch와 함께 작동하므로, 변환기 모델을 위한 기존 CI/CD 워크플로우를 최소한의 코드 변경으로 확장할 수 있습니다.
- Future‑proofing – MoE 모델이 수십억 개 파라미터로 성장함에 따라, 희소 전문가 부분을 독립적으로 확장할 수 있는 능력은 현재 GPU 하드웨어에서 추론을 실현 가능하게 유지하는 데 필수적입니다.
제한 사항 및 향후 연구
- 하드웨어 의존성 – 가장 큰 성능 향상은 고속 인트라‑노드 링크(NVLink)에 의존합니다; PCIe만 지원하는 일반 서버에서는 성능이 저하될 수 있습니다.
- 정적 전문가 라우팅 – Janus는 여전히 기존의 top‑k 게이팅 메커니즘을 사용합니다; 학습 기반 또는 동적 라우팅을 탐색하면 통신 비용을 추가로 줄일 수 있습니다.
- 다른 아키텍처에 대한 일반화 – 이 논문은 트랜스포머 기반 MoE에 초점을 맞추고 있으며, 비전‑MoE 또는 멀티모달 모델에 이 분산 개념을 적용하는 것은 아직 미해결 과제입니다.
- 극한 규모에서의 스케줄러 오버헤드 – 64 GPU까지는 무시할 수 있지만, 그 이상에서는 커널 스케줄러가 계층적 조정을 필요로 할 수 있다는 점을 저자들이 언급했습니다.
전반적으로 Janus는 어텐션과 전문가를 별개의 조정 가능한 서비스로 취급하는 것이 실제 프로덕션 환경에서 확장 가능하고 저지연 MoE 추론을 구현하는 실용적인 경로임을 보여줍니다.
저자
- Zhexiang Zhang
- Ye Wang
- Xiangyu Wang
- Yumiao Zhao
- Jingzhe Jiang
- Qizhen Weng
- Shaohuai Shi
- Yin Chen
- Minchen Yu
논문 정보
- arXiv ID: 2512.13525v1
- Categories: cs.DC
- Published: 2025년 12월 15일
- PDF: PDF 다운로드