[Paper] ReviveMoE: 대규모 MoE LLM 추론 배포에서 하드웨어 장애에 대한 빠른 복구

발행: 3일 전 (2026년 2월 25일 오전 02:39 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.21140v1

개요

대규모 언어 모델(LLM) 서비스가 수십 대에서 수백 대의 머신에 걸쳐 점점 더 많이 배포되고 있어 하드웨어 장애가 불가피해지고 있습니다. 논문 ReviveMoE는 전체 모델을 “콜드‑리스타트”하는 비용이 큰 작업 없이도 서비스를 즉시 복구할 수 있는 경량 복구 메커니즘을 소개합니다. 이는 오늘날 고처리량 추론 워크로드를 장악하고 있는 Mixture‑of‑Experts(MoE) LLM을 대상으로 합니다.

주요 기여

빠른 인‑플레이스 장애 복구: MoE 기반 LLM 추론에서 모델 가중치를 다시 로드하거나 그래프를 재컴파일할 필요 없이 복구.
통합 지원: 공동 배치(MoE와 어텐션이 같은 노드에 있음)와 분산 배치(MoE가 어텐션과 분리된) 두 서비스 아키텍처 모두 지원.
프로덕션 스택과 통합: 화웨이 클라우드의 xDeepServe 서빙 플랫폼과 XCCL 통신 라이브러리를 기반으로 실제 적용 가능성 입증.
정량적 속도 향상: 대규모 배포 환경에서 복구 지연 시간을 수십 초(전체 재시작)에서 서브초 또는 저밀리초 수준으로 감소.
요청 지연에 최소 영향: 복구 경로가 정상 추론과 동시에 실행되어 테일‑레턴시 보장을 유지.

방법론

State checkpointing – 중요한 런타임 메타데이터(예: 라우팅 테이블, 전문가 로드 통계, 통신 컨텍스트)는 잠금 없이 주기적으로 스냅샷됩니다.
Hot‑swap expert replicas – 전문가의 일부를 호스팅하는 노드가 실패하면, 다른 머신의 대기 복제본이 활성화됩니다. 라우팅 로직은 최신 체크포인트를 사용해 실시간으로 업데이트됩니다.
Graceful request draining – 실패한 노드를 대상으로 진행 중인 요청은 정상적인 복제본으로 재라우팅되고, 새로운 요청은 업데이트된 해시 기반 라우터를 통해 자동으로 대기 세트로 전달됩니다.
Communication layer adaptation – XCCL의 내결함 집합 프리미티브를 활용하여 전체 그래프를 해체하지 않고 all‑reduce 및 broadcast 채널을 재구성합니다.
Compatibility layer – 콜로케이션 배포의 경우, 동일한 메커니즘이 단순히 attention 서브그래프를 우회하고, 분산 설정에서는 attention 워커를 복구된 전문가 워커와 다시 연결합니다.

이 접근 방식은 xDeepServe 위에 얇은 미들웨어로 구현되어, 기본 모델 코드나 학습 파이프라인에 변경이 필요하지 않습니다.

결과 및 발견

Metric	Traditional Restart	ReviveMoE (Hot‑Swap)
평균 복구 시간	12–45 s (모델 크기에 따라 다름)	0.8 s (≈ 재시작 시간의 1 %)
장애 발생 시 99번째 백분위수 요청 지연 시간	정상 지연 시간의 5배까지 급증	< 1.2× 정상 지연 시간
처리량 손실	재로드 중 30–60 % 감소	< 5 % 감소 (대부분 라우팅 재조정 때문)
메모리 오버헤드	없음 (하지만 전체 재로드)	~8 % 추가 스탠바이 복제본용

저자들은 ReviveMoE를 128‑GPU MoE LLM 배포(≈ 300 B 파라미터)에서 수만 건의 요청을 초당 처리하도록 평가했습니다. 시뮬레이션된 노드 장애 상황에서도 시스템은 SLA 수준의 지연 시간을 유지했으며 1초 미만에 복구되어, 핫‑스왑 경로가 전문가 수에 따라 선형적으로 확장됨을 확인했습니다.

Practical Implications

SLA‑level reliability: 클라우드 제공자는 LLM 추론 서비스에 대해 초당 이하 복구를 보장할 수 있으며, 이는 기업 고객에게 중요한 차별화 요소입니다.
Cost savings: 전체 모델을 다시 로드하는 작업을 없애면 컴퓨팅 낭비가 줄어들고 과다 프로비저닝된 대기 클러스터의 필요성이 감소합니다.
Simplified ops: 운영자는 “드레인 및 재시작” MoE 워커를 위한 복잡한 오케스트레이션 스크립트를 더 이상 작성할 필요가 없으며, 미들웨어가 이를 자동으로 처리합니다.
Developer ergonomics: 기존 MoE 모델을 그대로 배포할 수 있습니다—ReviveMoE는 서빙 스택에 플러그인 형태로 작동하여 내결함성 추론 도입 장벽을 낮춥니다.
Edge & hybrid clouds: 동일한 기법을 사용해 MoE 전문가가 특수 가속기(예: TPU)에서 실행되고 어텐션이 CPU/GPU에서 실행되는 분산 환경에 적용할 수 있어, 견고한 멀티‑클라우드 배포가 가능해집니다.

제한 사항 및 향후 작업

하드웨어 의존성: 현재 프로토타입은 Huawei의 XCCL 라이브러리와 xDeepServe에 의존하고 있습니다; 다른 생태계(예: NVIDIA NCCL, Ray Serve)로 포팅하려면 추가 엔지니어링이 필요합니다.
대기 복제본 비용: 핫‑스탠바이 전문가 복사본을 유지하면 약간의 메모리 오버헤드가 발생합니다; 향후 작업에서는 실패 확률에 기반한 동적 복제본 스케일링을 탐색할 수 있습니다.
MoE에 한정된 범위: MoE가 현재 대형 LLM을 지배하고 있지만, 이 접근 방식은 밀집 트랜스포머 배포를 직접 다루지는 않습니다; 핫‑스와프 개념을 일반적인 어텐션 레이어에 확장하는 것이 열린 방향입니다.
실패 모드: 이 논문은 단일‑노드 실패에 초점을 맞추고 있습니다; 랙‑수준 전원 손실과 같은 상관된 실패나 네트워크 파티션을 처리하는 것은 향후 작업으로 남아 있습니다.

전체적으로 ReviveMoE는 대규모 MoE LLM 추론 서비스를 복원력 있게 만들기 위한 실용적이고 프로덕션‑준비된 경로를 제공하며, 보다 신뢰할 수 있는 AI‑as‑a‑service 제공을 위한 길을 열어줍니다.

저자

Haley Li
Xinglu Wang
Cong Feng
Chunxu Zuo
Yanan Wang
Hei Lo
Yufei Cui
Bingji Wang
Duo Cui
Shuming Jing
Yizhou Shan
Ying Xiong
Jiannan Wang
Yong Zhang
Zhenan Fan

논문 정보

arXiv ID: 2602.21140v1
Categories: cs.DC
Published: 2026년 2월 24일
PDF: PDF 다운로드

[Paper] ReviveMoE: 대규모 MoE LLM 추론 배포에서 하드웨어 장애에 대한 빠른 복구

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] STELLAR: 고성능 병렬 파일 시스템을 위한 LLM 자율 추론 활용 스토리지 튜닝 엔진

[Paper] 워크로드 부이언시: 공유 자원 병목 현상을 식별하여 앱을 정상 가동 상태로 유지

[Paper] 하이브리드 합의와 양자 시빌 저항

[Paper] LLMTailor: 대형 언어 모델의 효율적인 체크포인팅을 위한 계층별 맞춤 도구