[Paper] MixServe: Hybrid Parallelism을 이용한 MoE 모델을 위한 자동 분산 서빙 시스템 (Fused Communication Algorithm 기반)

발행: (2026년 1월 14일 오전 03:38 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.08800v1

Overview

MixServe는 대규모 Mixture‑of‑Experts (MoE) 언어 모델을 서비스할 때 가장 큰 병목 현상인 통신 오버헤드를 해결합니다. 이는 모델의 수십억 파라미터가 여러 GPU와 심지어 여러 노드에 걸쳐 분산될 때 발생합니다. 최적의 하이브리드 병렬 전략을 자동으로 선택하고 두 가지 고전적인 통신 패턴(all‑reduce와 all‑to‑all)을 결합함으로써, MixServe는 DeepSeek‑R1 및 Qwen‑3와 같은 최첨단 LLM에 대해 눈에 띄게 빠른 추론을 제공합니다.

주요 기여

  • 자동 전략 선택 – MixServe는 모델 크기, 하드웨어 토폴로지, 네트워크 대역폭을 프로파일링하여 텐서‑패럴렐(TP)과 전문가‑패럴렐(EP) 파티션의 최적 조합을 선택합니다.
  • 통합 AR‑A2A 통신 알고리즘 – 내부 노드 all‑reduce(AR)와 외부 노드 all‑to‑all(A2A)를 겹쳐서 수행하는 새로운 통신 원시 연산을 도입해 대기 시간과 네트워크 경쟁을 감소시킵니다.
  • 하이브리드 TP‑EP 병렬성 – TP(낮은 지연 시간의 내부 노드 연산)와 EP(확장 가능한 전문가 분배)의 장점을 결합하면서 각각의 단점(TP의 외부 노드 확장성 부족, EP의 부하 불균형)을 완화합니다.
  • 포괄적 평가 – 기존 서빙 스택에 비해 첫 토큰 도달 시간(TTFT)이 1.08–3.80배 빨라지고, 토큰 간 지연시간(ITL)이 1.03–1.66배 감소하며, 처리량이 최대 50 % 향상됨을 보여줍니다.
  • 오픈소스 친화적 설계 – 이 시스템은 인기 있는 추론 프레임워크 위에 플러그인 레이어로 구축되어 기존 배포 파이프라인에 쉽게 통합할 수 있습니다.

방법론

  1. 프로파일링 단계 – 서비스 시작 전에 MixServe는 가벼운 벤치마크를 실행하여 다음을 측정합니다:

    • 각 전문가 블록의 GPU당 메모리 사용량.
    • 노드 내부 NVLink와 노드 간 Ethernet/InfiniBand의 대역폭/지연 시간.
    • 모델의 게이팅 통계에 기반한 전문가 라우팅의 예상 로드 밸런스.
  2. 전략 탐색 – 프로파일링 데이터를 활용해 비용 모델이 다양한 후보 병렬 구성(다양한 TP 차수, EP 차수 및 그 조합)을 평가합니다. 추정 통신 시간이 가장 낮은 구성이 자동으로 선택됩니다.

  3. 통합 통신 엔진

    • 노드 내부 AR: 동일 노드 내 GPU들 간에 가중치 업데이트 또는 활성화 텐서를 집계합니다.
    • 노드 간 A2A: 전문가별 데이터를 노드 간에 교환합니다.
    • 엔진은 이 두 단계를 파이프라인화하여, 네트워크가 A2A 패킷을 전송하는 동안 GPU가 동시에 AR 축소를 완료하도록 함으로써 한 지연을 다른 지연 뒤에 숨깁니다.
  4. 런타임 실행 – 선택된 하이브리드 레이아웃이 추론 시점에 구현됩니다. 전문가 라우팅은 표준 MoE 게이팅 로직을 따르지만, 기본 텐서 전송은 이제 통합 엔진이 처리하므로 모델 자체에 대한 코드 변경이 필요하지 않습니다.

결과 및 발견

ModelMetricBaseline (TP‑only / EP‑only)MixServe
DeepSeek‑R1 (7B)TTFT120 ms86 ms (1.39×)
Qwen‑3 (13B)ITL45 ms31 ms (1.45×)
DeepSeek‑R1 (7B)Throughput (tokens/s)210317 (+50 %)
Qwen‑3 (13B)TTFT210 ms112 ms (1.88×)
  • 통신 절감: 결합된 AR‑A2A 프리미티브는 평균 약 30 % 정도 노드 간 트래픽을 감소시킵니다. 이는 AR과 A2A에서 각각 전송되던 데이터를 하나로 합쳐 전송 횟수를 줄이기 때문입니다.
  • 로드 밸런스 개선: 적당한 TP 정도를 허용함으로써 노드당 전문가 수가 감소하고, 이는 일반적으로 EP‑only 설정에서 발생하는 전문가 라우팅 편향을 완화합니다.
  • 확장성: 2‑node, 4‑node, 8‑node 클러스터에서 실험한 결과, 네트워크 포화가 지배적이 되기 전까지 거의 선형적인 처리량 증가를 보였으며, 이는 MixServe의 비용 모델이 더 높은 TP 비율로 전환되는 시점과 정확히 일치합니다.

Practical Implications

  • Faster user‑facing LLM services – 낮은 TTFT는 챗봇 응답을 더 빠르게 하고 실시간 애플리케이션의 지연 시간을 감소시킵니다.
  • Cost‑effective scaling – 동일한 하드웨어에서 더 많은 성능을 끌어냄으로써 클라우드 제공자는 GPU당 더 많은 동시 요청을 처리할 수 있어 운영 비용을 낮춥니다.
  • Simplified deployment pipelines – 개발자는 이제 새로운 모델마다 TP와 EP 차수를 수동으로 조정할 필요가 없으며, MixServe의 자동 선택이 그 작업을 수행합니다.
  • Compatibility with existing stacks – 이 시스템은 모델을 다시 작성할 필요 없이 PyTorch 기반 추론 서버(예: vLLM, FasterTransformer)에 바로 연결되므로 해당 프레임워크를 이미 사용 중인 팀이 손쉽게 도입할 수 있습니다.
  • Potential for edge‑to‑cloud hybrid serving – 비용 모델을 확장하여 특정 전문가 샤드를 고대역폭 에지 노드에 유지하고 나머지는 클라우드에서 실행할지 결정할 수 있어, 지연 시간에 민감한 AI 서비스에 새로운 아키텍처 패턴을 제시합니다.

제한 사항 및 향후 작업

  • Network dependency – 가장 큰 이득은 고속 노드 간 링크(InfiniBand, RoCE)를 갖춘 클러스터에서 나타납니다. 느린 Ethernet 환경에서도 결합 알고리즘이 도움이 되지만 상대적인 속도 향상은 감소합니다.
  • Static profiling – MixServe의 현재 비용 모델은 시작 시 한 번만 실행됩니다; 동적 워크로드 변화(예: 갑작스러운 트래픽 급증)는 초기 선택을 최적이 아니게 만들 수 있습니다. 향후 작업으로 온라인 재‑밸런싱을 포함합니다.
  • Expert routing overhead – 통신량은 감소했지만, 토큰을 전문가에게 라우팅하는 게이팅 로직이 여전히 CPU‑측 지연을 발생시킵니다; GPU 커널과의 tighter integration이 ITL을 더욱 낮출 수 있습니다.
  • Generality beyond MoE – 결합된 AR‑A2A 프리미티브는 MoE 모델의 TP‑EP 패턴에 맞춰 설계되었습니다. 파이프라인 병렬화, 텐서‑슬라이싱 등 다른 대규모 병렬화 스킴으로 확장하는 것은 아직 연구가 필요한 영역입니다.

MixServe는 스마트하고 하드웨어 인식 커뮤니케이션 엔지니어링이 차세대 대규모 LLM에 실질적인 성능 향상을 제공할 수 있음을 보여주며, 이를 생산‑준비된 지연 시간 및 비용 목표에 가깝게 만든다.

저자

  • Bowen Zhou
  • Jinrui Jia
  • Wenhao He
  • Yong Zhang
  • Fang Dong

논문 정보

  • arXiv ID: 2601.08800v1
  • 분류: cs.DC
  • 출판일: 2026년 1월 13일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »