[논문] LiveR: 모델 학습을 위한 실시간 재구성을 통한 세밀한 탄력성
Source: arXiv - 2605.22014v1
개요
사용자 비용을 낮추고 클러스터 활용도를 극대화하기 위해, 대규모 모델 학습은 점점 더 변동성이 크지만 저렴한 GPU 자원(예: 스팟 인스턴스 및 공유 클러스터의 회수 가능한 리소스)을 활용하고 있다. 그러나 이러한 경제적 이점을 실현하려면 작업이 많은 환경이 제공하는 짧은 경고 시간 안에 적응해야 한다. 기존의 탄력적 학습 시스템은 재구성을 여전히 “정지 후 재시작” 방식으로 처리한다: 체크포인트를 통해 분산 상태를 외부에 저장하고, 새로운 토폴로지에서 분산 런타임을 재구축한 뒤 학습을 다시 시작한다. 이 과정은 저장소 중심의 복구 절차가 되어 체크포인트 I/O, 프로세스 재시작, CUDA 초기화, 통신자 설정 등에서 상당한 다운타임을 초래한다. 우리는 LiveR을 제안한다. LiveR은 탄력적 LLM 학습을 위한 실시간 재구성 런타임으로, 저장소 기반 재시작을 혼합 병렬 학습 세계 간의 실시간, 메모리 제한적 핸드오프로 대체한다. 현재 세계가 학습을 계속하는 동안, LiveR은 비동기적으로 목표 세계를 준비하고, 새로 추가된 워커들을 격리된 상태에서 부트스트랩하여 무거운 초기화를 핵심 경로에서 분리하며, 고대역폭 인터커넥트를 통해 모델 상태를 직접 스트리밍하고 텐서, 파이프라인, 데이터 병렬 차원에서 온라인으로 재구성한다. 목표 세계가 준비되면 LiveR은 가벼운 커밋을 수행해 실시간 경로에서 정지·재시작 없이 새로운 구성으로 학습을 전환한다. 우리는 LiveR을 Megatron‑LM과 PyTorch 위에 구현하고 다중 노드 GPU 클러스터에서 엔드‑투‑엔드 평가를 수행했다. 다양한 재구성 시나리오에서 LiveR은 다운타임을 분에서 초로 감소시키고, 체크포인트/재시작 기반 기준 대비 14×‑23× 빠르게 재구성을 가속화하며, 정상 상태 오버헤드는 최소화하고, 변동성 높은 자원 환경에서도 최대 99%의 학습 효율을 유지한다. 이는 변동성이 큰 저비용 GPU 용량을 LLM 학습에 훨씬 실용적으로 만든다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.DC
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- Haoyuan Liu
- Kairui Zhou
- Shuyao Qi
- Qinwei Yang
- Shengkai Lin
- Shizhen Zhao
- Wei Zhang
논문 정보
- arXiv ID: 2605.22014v1
- Categories: cs.DC
- Published: May 21, 2026
- PDF: Download PDF