[Paper] Janus: 확장 가능한 MoE 추론을 위해 Attention과 Experts를 분리

발행: (2025년 12월 16일 오전 01:53 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.13525v1

Overview

이 논문은 Janus라는 시스템을 소개합니다. 이 시스템은 대규모 Mixture‑of‑Experts (MoE) 모델의 attention과 expert 구성 요소를 분리하여 별도의 GPU 서브‑클러스터에서 실행합니다. 이 두 부분을 독립적인 워크로드로 취급함으로써 Janus는 각각에 적절한 자원을 할당할 수 있어 추론 확장성을 크게 향상시키고 실시간 애플리케이션의 지연 시간을 크게 줄입니다.

핵심 기여

  • Disaggregated execution – attention과 expert 모듈을 별개의 GPU 그룹에 배치하여 독립적인 스케일링을 가능하게 함.
  • Adaptive two‑phase communication – intra‑node 및 inter‑node 대역폭 계층을 활용해 최소 오버헤드로 데이터를 교환.
  • Lightweight GPU‑kernel scheduler – 활성 expert 수를 실시간으로 GPU 간에 균형 맞추어 메모리 병목을 감소.
  • Fine‑grained resource manager – expert를 동적으로 재배치하고 attention과 MoE 클러스터 크기를 조정해 지연 시간 목표를 충족.
  • Performance gains – 기존 MoE 추론 시스템 대비 GPU당 최대 3.9배 높은 처리량을 달성하면서 토큰당 지연 시간 예산을 유지.

방법론

  1. 시스템 파티셔닝 – 저자들은 MoE 모델을 두 개의 논리적 단계로 나눕니다:

    • (a) 어텐션 단계 (표준 트랜스포머 자체‑어텐션)
    • (b) 전문가 단계 (희소 피드‑포워드 레이어).
      각 단계는 자체 GPU 서브‑클러스터에서 실행됩니다.
  2. 두 단계 통신

    • Phase 1: 노드 내부에서 고속 NVLink 또는 PCIe가 어텐션 GPU와 전문가 GPU 사이에 토큰 표현을 교환합니다.
    • Phase 2: 노드 간에는 대역폭을 인식하는 집합 연산(예: NCCL 기반 all‑gather)을 사용해 활성화된 전문가 출력만 이동시켜 노드 간 트래픽을 최소화합니다.
  3. GPU‑커널 스케줄러 – 맞춤형 커널이 토큰당 선택된 전문가 수를 모니터링하고 작업을 재분배하여 어느 GPU도 병목이 되지 않도록 합니다. MoE 추론은 메모리‑바운드이므로, 스케줄러는 CPU‑GPU 동기화 지연을 피하기 위해 직접 GPU에서 실행됩니다.

  4. 동적 자원 관리 – 컨트롤러가 런타임 메트릭(처리량, 지연 시간, GPU 메모리 사용량)을 관찰하고 다음을 수행할 수 있습니다:

    • (i) 어텐션 또는 전문가 서브‑클러스터에서 GPU를 추가하거나 제거하고,
    • (ii) 부하 균형을 유지하기 위해 전문가 가중치를 GPU 간에 이동합니다.

모든 구성 요소는 기존 딥러닝 프레임워크(예: PyTorch) 위에 구축되었으며 표준 CUDA/NCCL 프리미티브를 사용하므로 일반 데이터센터 GPU 팰릿에 이식이 용이합니다.

결과 및 발견

지표JanusBaseline MoE System속도‑up
GPU당 처리량 (tokens/s)3.9× 높음3.9×
95‑번째 백분위수 토큰당 지연시간 (BERT‑large‑MoE)≤ 12 ms20 ms1.7× 낮음
GPU 메모리 활용도 (attention vs. expert)45 % / 78 % (균형)70 % / 70 % (과다 할당)
확장 효율성 (최대 64 GPUs)85 %55 %

핵심 요약

  • 두 모듈을 분리하면 “모두에게 동일한” 자원 할당 문제를 없앨 수 있다.
  • 적응형 통신 스킴은 기존의 단순 all‑gather 방식에 비해 노드 간 트래픽을 최대 **60 %**까지 감소시킨다.
  • GPU‑커널 스케줄러는 추론 단계당 0.5 ms 이하의 오버헤드만 추가하면서 전문가 활성화를 고르게 분산한다.

Practical Implications

  • Cost‑effective inference – 클라우드 제공업체는 필요할 때만 작은 어텐션 클러스터와 큰 전문가 클러스터를 가동하여 GPU 임대 비용을 절감할 수 있습니다.
  • Latency‑critical services – 실시간 추천, 검색, 혹은 대화형 AI는 전체 MoE 모델을 과도하게 프로비저닝하지 않고도 토큰당 10 ms 미만 목표를 달성할 수 있습니다.
  • Simplified deployment pipelines – Janus가 표준 CUDA/NCCL 및 PyTorch와 함께 작동하므로, 변환기 모델을 위한 기존 CI/CD 워크플로우를 최소한의 코드 변경으로 확장할 수 있습니다.
  • Future‑proofing – MoE 모델이 수십억 개 파라미터로 성장함에 따라, 희소 전문가 부분을 독립적으로 확장할 수 있는 능력은 현재 GPU 하드웨어에서 추론을 실현 가능하게 유지하는 데 필수적입니다.

제한 사항 및 향후 연구

  • 하드웨어 의존성 – 가장 큰 성능 향상은 고속 인트라‑노드 링크(NVLink)에 의존합니다; PCIe만 지원하는 일반 서버에서는 성능이 저하될 수 있습니다.
  • 정적 전문가 라우팅 – Janus는 여전히 기존의 top‑k 게이팅 메커니즘을 사용합니다; 학습 기반 또는 동적 라우팅을 탐색하면 통신 비용을 추가로 줄일 수 있습니다.
  • 다른 아키텍처에 대한 일반화 – 이 논문은 트랜스포머 기반 MoE에 초점을 맞추고 있으며, 비전‑MoE 또는 멀티모달 모델에 이 분산 개념을 적용하는 것은 아직 미해결 과제입니다.
  • 극한 규모에서의 스케줄러 오버헤드 – 64 GPU까지는 무시할 수 있지만, 그 이상에서는 커널 스케줄러가 계층적 조정을 필요로 할 수 있다는 점을 저자들이 언급했습니다.

전반적으로 Janus는 어텐션과 전문가를 별개의 조정 가능한 서비스로 취급하는 것이 실제 프로덕션 환경에서 확장 가능하고 저지연 MoE 추론을 구현하는 실용적인 경로임을 보여줍니다.

저자

  • Zhexiang Zhang
  • Ye Wang
  • Xiangyu Wang
  • Yumiao Zhao
  • Jingzhe Jiang
  • Qizhen Weng
  • Shaohuai Shi
  • Yin Chen
  • Minchen Yu

논문 정보

  • arXiv ID: 2512.13525v1
  • Categories: cs.DC
  • Published: 2025년 12월 15일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] LeaseGuard: Raft 리스 제대로 구현

Raft는 분산 데이터베이스에서 쓰기 복제를 위한 선도적인 합의 알고리즘입니다. 그러나 분산 데이터베이스는 일관된 읽기도 필요합니다. 이를 보장하기 위해…