[Paper] ResiHP: 동적 하이브리드로 LLM 훈련 실패 제어
Source: arXiv - 2605.06374v1
위에 제공된 내용 외에 번역할 텍스트가 없습니다. 번역하고 싶은 본문을 알려주시면 한국어로 번역해 드리겠습니다.
Overview
오늘날의 대규모 언어 모델(LLM) 훈련은 수천 개의 GPU에 작업을 분산하는 하이브리드 병렬성에 의존합니다. 단일 GPU에 문제가 발생하면 전체 훈련 작업이 중단될 수 있으며, 데이터셋 전반에 걸친 시퀀스 길이의 자연스러운 변동성으로 문제가 더욱 커집니다. ResiHP는 경량화된 작업 부하 인식 장애 감지기와 동적 스케줄러를 도입하여 하드웨어 결함이 발생해도 훈련이 원활히 진행되도록 하며, 256‑GPU 클러스터에서 기존 복원력 시스템 대비 최대 4.4×의 속도 향상을 제공합니다.
주요 기여
- Accurate failure detection: 가변적인 시퀀스 길이로 인한 일반적인 반복 시간 지터와 실제 하드웨어 오류를 구분하는 새로운 예측기가 도입되었습니다.
- Hybrid‑aware scheduling: 실패한 디바이스를 보완하기 위해 병렬 그룹, 모델 파티셔닝 및 작업 부하 분배를 실시간으로 동적으로 재구성합니다.
- Low‑overhead design: 탐지기는 거의 추가 연산이 필요 없는 온라인 방식으로 동작하여 대규모 프로덕션 학습에 실용적입니다.
- Empirical validation: 256‑GPU 클러스터에서 수행한 실험 결과, 최신 복원력 훈련 프레임워크와 비교했을 때 시뮬레이션된 다양한 오류 패턴에 대해 1.04–4.39배 높은 처리량을 달성했습니다.
Source: …
Methodology
-
Workload‑aware execution‑time predictor
- 현재 배치의 시퀀스 길이 분포를 함수로 하여 예상 반복 시간을 모델링합니다.
- 짧은 워밍업 기간 동안 학습된 가벼운 회귀(예: 선형 회귀 또는 얕은 신경망)를 사용합니다.
- 관측된 반복 시간이 통계적으로 도출된 신뢰 구간을 벗어나면 시스템이 잠재적 실패를 표시합니다.
-
Dynamic Scheduler
- Parallelism group resizing: 오류가 발생한 GPU를 우회하도록 텐서‑모델‑패럴렐 및 데이터‑패럴렐 그룹을 축소하거나 확장합니다.
- Model partition rebalancing: 남은 장치들이 추가 작업을 고르게 나누도록 모델 샤드를 재배치합니다.
- Workload‑aware batch slicing: 장치별로 짧은 시퀀스와 긴 시퀀스의 비율을 조정하여 반복 시간의 균형을 유지합니다.
-
Integration loop
- 탐지기는 매 반복마다 실행되어 신뢰 점수를 스케줄러에 전달합니다.
- 스케줄러는 목표 처리량을 복구하는 데 필요한 최소한의 변경을 적용하고, 시스템은 전역 재시작 없이 학습을 계속합니다.
Results & Findings
| Scenario | Baseline (no resilience) | Prior resilient system | ResiHP (throughput) |
|---|---|---|---|
| 단일‑GPU 정지 (5 % 지연) | 0.78× | 0.92× | 1.73× |
| 다중‑GPU 정지 (2‑3 GPUs) | 0.55× | 0.68× | 2.31× |
| 높은 시퀀스‑길이 변동 | 0.62× | 0.81× | 1.04× |
| 혼합 오류 + 변동 | 0.48× | 0.66× | 4.39× |
- 탐지 정확도: > 96 % 진양성 비율, < 2 % 위양성 비율, 긴 시퀀스로 인해 반복 시간이 ±30 % 변동해도.
- 오버헤드: 예측기가 < 0.5 %의 추가 실행 시간을 추가하고, 스케줄러 재구성 비용은 이후 반복에 걸쳐 상쇄됩니다.
Practical Implications
- Higher GPU utilization: GPU 활용도 향상: 데이터‑센터 운영자는 단일 노드 장애가 전체 작업을 망치지 않을까 걱정하지 않고 더 큰 클러스터에서 LLM 학습 작업을 실행할 수 있습니다.
- Cost savings: 비용 절감: 작업 재시작 횟수가 줄고 과다 프로비저닝 필요성이 감소함에 따라 클라우드 컴퓨팅 비용이 직접적으로 낮아집니다.
- Simplified ops: 운영 간소화: 시스템의 온라인 감지 덕분에 엔지니어가 로그를 수동으로 모니터링하거나 GPU 오류 시 개입할 필요가 없습니다.
- Portability: 이식성: ResiHP가 병렬성 그룹 수준에서 작동하기 때문에 기존 PyTorch/DeepSpeed 또는 Megatron‑LM 파이프라인에 최소한의 코드 변경만으로 적용할 수 있습니다.
제한 사항 및 향후 작업
- 실패 범위: ResiHP는 현재 성능 저하(느린 GPU)와 완전 정지를 처리하지만, 아직은 무음 비트‑플립이나 손상된 모델 파라미터는 다루지 않습니다.
- 256 GPU 이상 확장성: 실험은 256 GPU에서 중단되며, 저자들은 병렬 그룹 수가 크게 증가하면 예측기 정확도가 떨어질 수 있어 계층적 탐지가 필요하다고 언급합니다.
- 데이터셋별 튜닝: 길이 분포가 크게 다른 데이터셋(예: 코드 vs. 문장)에서는 예측기를 재학습해야 합니다.
- 향후 방향: 프레임워크를 다중 노드, 이기종 클러스터(GPU/TPU 혼합)로 확장하고, 내결함성 체크포인팅을 통합하며, 강화 학습 기반 스케줄링 정책을 탐구하는 것입니다.
저자
- Tenghui Ma
- Jihu Guo
- Wei Gao
- Sitian Lu
- Zhisheng Ye
- Hanjing Wang
- Dahua Lin
논문 정보
- arXiv ID: 2605.06374v1
- 분류: cs.DC
- 출판일: 2026년 5월 7일
- PDF: PDF 다운로드