[논문] GEM: MoE 시스템을 위한 GPU 변동성 인식 전문가‑GPU 매핑

발행: (2026년 5월 20일 AM 12:01 GMT+9)
8 분 소요
원문: arXiv

출처: arXiv - 2605.19945v1

개요

이 논문은 GEM이라는 시스템을 소개한다. GEM은 각 GPU의 성능 변동성을 고려하여 Mixture‑of‑Experts(MoE) 모델의 전문가들을 지능적으로 GPU에 할당한다. GPU별 속도에 따라 토큰 작업량을 균형 있게 배분함으로써, 일반적으로 MoE 추론 파이프라인을 지연시키는 “스트래거러” 효과를 감소시키고 최대 16.5 %까지 지연 시간을 낮춘다.

핵심 기여

  • 변동성 인식 배치 알고리즘: 측정된 GPU별 속도 프로파일과 토큰‑로드 분포를 기반으로 전문가를 GPU에 매핑한다.
  • 두 종류의 전문가 분류(일관 전문가 vs. 일시 전문가)로, 자주 사용되는 전문가가 동일하거나 느린 GPU에 함께 배치되는 것을 방지한다.
  • 실용적인 프로파일링 프레임워크: 주어진 MoE 모델과 워크로드에 대해 GPU 변동성 데이터를 자동으로 수집한다.
  • 실증적 검증: 여러 작업 및 하드웨어 설정에서 기존 로드‑밸런싱 기준 대비 평균 7.9 %(최대 16.5 %)의 엔드‑투‑엔드 지연 시간 감소를 보여준다.

방법론

  1. GPU 변동성 프로파일링 – GEM은 짧은 보정 단계에서 각 GPU가 대표적인 전문가 커널 집합을 처리하는 처리량을 측정해 장치별 “속도 계수”를 만든다.
  2. 토큰 로드 분석 – 목표 작업(예: 번역, 언어 모델링)에서 각 토큰 배치마다 각 전문가가 얼마나 자주 활성화되는지를 기록해 토큰 로드의 확률 분포를 얻는다.
  3. 전문가 분류 – 전문가를 다음 두 그룹으로 나눈다:
    • 일관 전문가 – 대부분의 배치에서 활성화됨.
    • 일시 전문가 – 특정 하위 작업이나 시간 창에서만 함께 활성화됨.
  4. 매핑 최적화 – 속도 계수와 토큰‑로드 통계를 활용해 GEM은 가벼운 할당 문제를 해결한다. 이 과정에서 (i) 일관 전문가를 가장 빠른 GPU에 고르게 배치하고, (ii) 일시 전문가를 이미 포화되지 않은 GPU에 배치하며, (iii) 각 GPU의 전체 토큰 로드가 그 속도에 비례하도록 한다.
  5. 배포 – 최종 매핑을 MoE 서빙 엔진에 전달한다. 엔진은 기존과 동일하게 토큰을 라우팅하지만, 정적인 전문가‑GPU 배치만 달라진다.

이 접근법은 MoE 모델 아키텍처나 추론 코드 경로에 어떠한 변경도 요구하지 않으며, 기존 서빙 스택에 바로 적용할 수 있는 드롭‑인 최적화이다.

결과 및 발견

지표기준 (로드 밸런싱)GEM상대 개선
엔드‑투‑엔드 지연 시간 (평균)100 ms92.1 ms‑7.9 %
엔드‑투‑엔드 지연 시간 (최악)115 ms96.5 ms‑16.5 %
GPU 활용도 변동성높음 (≈ 30 % std)낮음 (≈ 12 % std)
처리량 (토큰/초)9.8k10.6k+8 %

주요 관찰

  • 스트래거러 GPU는 주로 느린 GPU(예: 구형 Pascal 카드)였으며, 기존 방식에서는 일관 전문가가 과도하게 할당돼 있었다.
  • GEM 배치 후 각 GPU는 좁은 시간 창 안에서 할당된 토큰 배치를 완료해 동기화 장벽 병목을 제거했다.
  • 이득은 다양한 모델 규모(예: 64‑전문가 vs. 256‑전문가 MoE)와 작업(기계 번역, 요약) 전반에 걸쳐 일관되었으며, 방법론의 일반성을 입증한다.

실용적 시사점

  • 추론 비용 감소 – 지연 시간 감소는 요청당 GPU‑초 사용량 감소로 직결돼 대규모 MoE 서비스의 클라우드 비용을 절감한다.
  • 하드웨어 활용도 향상 – 데이터센터 운영자는 최신 A100과 구형 V100을 혼합해도 성능 저하 없이 활용할 수 있어 레거시 하드웨어 수명을 연장한다.
  • 용량 계획 간소화 – GEM이 측정된 속도에 따라 자동으로 부하를 균형 맞추므로, 엔지니어가 GPU를 확장하거나 교체할 때 전문가 배치를 수동으로 조정할 필요가 없다.
  • 자동 스케일링 가능성 – 프로파일링 단계는 실시간으로 재실행될 수 있어 새로운 GPU가 추가되거나 성능이 변동(예: 열 스로틀링)할 때 동적 재매핑을 지원한다.

MoE 모델을 API, 챗봇, 실시간 번역 파이프라인 등에 통합하는 개발자는 기존 서빙 스택에 GEM 매핑 모듈만 연결하면 최소한의 코드 변경으로 지연 시간 개선을 얻을 수 있다.

제한 사항 및 향후 연구

  • 정적 매핑 – GEM은 모델/작업당 한 번 배치를 계산하며, 토큰 분포의 런타임 변화(예: 특정 전문가 활성화 급증)에는 적응하지 않는다.
  • 프로파일링 오버헤드 – 초기 변동성 프로파일링은 짧은 워밍업 비용을 요구하는데, 매우 큰 GPU 클러스터에서는 무시할 수 없는 비용이 될 수 있다.
  • 동기식 토큰 처리 가정 – 이미 비동기식이나 파이프라인 MoE 실행을 사용 중인 시스템에서는 이점이 감소할 수 있다.
  • 향후 방향(저자 제안):
    1. 서비스 중 동적 재매핑을 지원하도록 GEM 확장
    2. 전력·열 제약을 배치 최적화에 통합
    3. 동일 GPU 풀을 공유하는 다중 MoE 모델의 공동 스케줄링 탐색

저자

  • Sourish Wawdhane
  • Avinash Kumar
  • Poulami Das

논문 정보

  • arXiv ID: 2605.19945v1
  • 분류: cs.DC, cs.AI, cs.CL
  • 출판일: 2026년 5월 19일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »