[논문] GEM: MoE 시스템을 위한 GPU 변동성 인식 전문가‑GPU 매핑

발행: 3주 전 (2026년 5월 20일 AM 12:01 GMT+9)

8 분 소요

원문: arXiv

출처: arXiv - 2605.19945v1

개요

이 논문은 GEM이라는 시스템을 소개한다. GEM은 각 GPU의 성능 변동성을 고려하여 Mixture‑of‑Experts(MoE) 모델의 전문가들을 지능적으로 GPU에 할당한다. GPU별 속도에 따라 토큰 작업량을 균형 있게 배분함으로써, 일반적으로 MoE 추론 파이프라인을 지연시키는 “스트래거러” 효과를 감소시키고 최대 16.5 %까지 지연 시간을 낮춘다.

핵심 기여

변동성 인식 배치 알고리즘: 측정된 GPU별 속도 프로파일과 토큰‑로드 분포를 기반으로 전문가를 GPU에 매핑한다.
두 종류의 전문가 분류(일관 전문가 vs. 일시 전문가)로, 자주 사용되는 전문가가 동일하거나 느린 GPU에 함께 배치되는 것을 방지한다.
실용적인 프로파일링 프레임워크: 주어진 MoE 모델과 워크로드에 대해 GPU 변동성 데이터를 자동으로 수집한다.
실증적 검증: 여러 작업 및 하드웨어 설정에서 기존 로드‑밸런싱 기준 대비 평균 7.9 %(최대 16.5 %)의 엔드‑투‑엔드 지연 시간 감소를 보여준다.

방법론

GPU 변동성 프로파일링 – GEM은 짧은 보정 단계에서 각 GPU가 대표적인 전문가 커널 집합을 처리하는 처리량을 측정해 장치별 “속도 계수”를 만든다.
토큰 로드 분석 – 목표 작업(예: 번역, 언어 모델링)에서 각 토큰 배치마다 각 전문가가 얼마나 자주 활성화되는지를 기록해 토큰 로드의 확률 분포를 얻는다.
전문가 분류 – 전문가를 다음 두 그룹으로 나눈다:
- 일관 전문가 – 대부분의 배치에서 활성화됨.
- 일시 전문가 – 특정 하위 작업이나 시간 창에서만 함께 활성화됨.
매핑 최적화 – 속도 계수와 토큰‑로드 통계를 활용해 GEM은 가벼운 할당 문제를 해결한다. 이 과정에서 (i) 일관 전문가를 가장 빠른 GPU에 고르게 배치하고, (ii) 일시 전문가를 이미 포화되지 않은 GPU에 배치하며, (iii) 각 GPU의 전체 토큰 로드가 그 속도에 비례하도록 한다.
배포 – 최종 매핑을 MoE 서빙 엔진에 전달한다. 엔진은 기존과 동일하게 토큰을 라우팅하지만, 정적인 전문가‑GPU 배치만 달라진다.

이 접근법은 MoE 모델 아키텍처나 추론 코드 경로에 어떠한 변경도 요구하지 않으며, 기존 서빙 스택에 바로 적용할 수 있는 드롭‑인 최적화이다.

결과 및 발견

지표	기준 (로드 밸런싱)	GEM	상대 개선
엔드‑투‑엔드 지연 시간 (평균)	100 ms	92.1 ms	‑7.9 %
엔드‑투‑엔드 지연 시간 (최악)	115 ms	96.5 ms	‑16.5 %
GPU 활용도 변동성	높음 (≈ 30 % std)	낮음 (≈ 12 % std)	—
처리량 (토큰/초)	9.8k	10.6k	+8 %

주요 관찰

스트래거러 GPU는 주로 느린 GPU(예: 구형 Pascal 카드)였으며, 기존 방식에서는 일관 전문가가 과도하게 할당돼 있었다.
GEM 배치 후 각 GPU는 좁은 시간 창 안에서 할당된 토큰 배치를 완료해 동기화 장벽 병목을 제거했다.
이득은 다양한 모델 규모(예: 64‑전문가 vs. 256‑전문가 MoE)와 작업(기계 번역, 요약) 전반에 걸쳐 일관되었으며, 방법론의 일반성을 입증한다.

실용적 시사점

추론 비용 감소 – 지연 시간 감소는 요청당 GPU‑초 사용량 감소로 직결돼 대규모 MoE 서비스의 클라우드 비용을 절감한다.
하드웨어 활용도 향상 – 데이터센터 운영자는 최신 A100과 구형 V100을 혼합해도 성능 저하 없이 활용할 수 있어 레거시 하드웨어 수명을 연장한다.
용량 계획 간소화 – GEM이 측정된 속도에 따라 자동으로 부하를 균형 맞추므로, 엔지니어가 GPU를 확장하거나 교체할 때 전문가 배치를 수동으로 조정할 필요가 없다.
자동 스케일링 가능성 – 프로파일링 단계는 실시간으로 재실행될 수 있어 새로운 GPU가 추가되거나 성능이 변동(예: 열 스로틀링)할 때 동적 재매핑을 지원한다.

MoE 모델을 API, 챗봇, 실시간 번역 파이프라인 등에 통합하는 개발자는 기존 서빙 스택에 GEM 매핑 모듈만 연결하면 최소한의 코드 변경으로 지연 시간 개선을 얻을 수 있다.

제한 사항 및 향후 연구

정적 매핑 – GEM은 모델/작업당 한 번 배치를 계산하며, 토큰 분포의 런타임 변화(예: 특정 전문가 활성화 급증)에는 적응하지 않는다.
프로파일링 오버헤드 – 초기 변동성 프로파일링은 짧은 워밍업 비용을 요구하는데, 매우 큰 GPU 클러스터에서는 무시할 수 없는 비용이 될 수 있다.
동기식 토큰 처리 가정 – 이미 비동기식이나 파이프라인 MoE 실행을 사용 중인 시스템에서는 이점이 감소할 수 있다.
향후 방향(저자 제안):
1. 서비스 중 동적 재매핑을 지원하도록 GEM 확장
2. 전력·열 제약을 배치 최적화에 통합
3. 동일 GPU 풀을 공유하는 다중 MoE 모델의 공동 스케줄링 탐색

저자

Sourish Wawdhane
Avinash Kumar
Poulami Das

논문 정보

arXiv ID: 2605.19945v1
분류: cs.DC, cs.AI, cs.CL
출판일: 2026년 5월 19일
PDF: PDF 다운로드

[논문] GEM: MoE 시스템을 위한 GPU 변동성 인식 전문가‑GPU 매핑

개요

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] SkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 강력한 Teacher는 필요 없을까? LLM 사전학습에서의 Distillation

[Paper] 언어 모델에서 Hierarchical Concept Geometry는 Word Co-occurrence에서 나타난다