[논문] 혼합 정밀도 통신 회피 SGD: GPU 기반 일반화된 선형 모델
개요
배포된 확률적 경사 하강법(SGD)는 각 반복이 프로세스 간에 AllReduce를 필요로 하므로 계산보다 통신에 의해 제한됩니다. 통신 회피형 SGD(CA‑SGD)는 s번 반복에 걸쳐 통신을 분산하여 s개의 연속적인 AllReduce를 sb×sb Gram 행렬에 대한 단일 AllReduce로 대체함으로써 통신을 amortizes합니다. 이는 더 많은 계산과 대역폭을 교환하면서 동기화 지점을 줄입니다. 현대 GPU는 행렬 하드웨어와 저정밀 포맷을 통해 Gram GEMM 가속화와 BF16 트래픽 감소를 달성합니다. NVIDIA GPU에서 일반화된 선형 모델에 대한 혼합 정밀도 CA‑SGD를 연구합니다. finite-precision 분석은 한 번의 CA‑SGD 외부 반복의 로컬 반올림 오류를 9개의 독립적인 정밀도 선택으로 분해하며, 이는 하드웨어에 대한 정보가 저정밀 단위 반올림값을 통해서만 의존하므로 resulting recipes가 GPU 세대 간에 원칙적으로 전이됩니다. 레시피는 입력 행렬과 마진 벡터를 저정밀로 저장하고, 저정밀 입력을 고정밀 누산을 사용해 Gram 행렬을 계산한 뒤, 이를 고정밀로 통신하고 내부 재귀와 가중치 업데이트를 고정밀로 수행합니다. NERSC Perlmutter A100 GPU에서 혼합 정밀도 CA‑SGD는 로지스틱, 선형, 포아송 문제에 대해 FP32 SGD 손실을 0.5% 이내로 맞추고 epsilon, SUSY, HIGGS, synth, Poisson-synth에서는 FP32 SGD 대비 5.1~6.8배의 속도 향상을 달성합니다. 우리 소프트웨어는 https://doi.org/10.5281/zenodo.20448273에서 사용할 수 있습니다.
Key Contributions
이 논문은 다음 분야를 다룹니다:
- cs.DC
- cs.LG
- math.NA
- stat.ML
Methodology
자세한 방법については 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.DC의 발전에 기여합니다.
Authors
- Aditya Devarakonda
- Irene Simó Muñoz
- Giulia Guidi
Paper Information
- arXiv ID: 2606.18463v1
- 카테고리: cs.DC, cs.LG, math.NA, stat.ML
- 발행일: 2026년 6월 16일
- PDF: PDF 다운로드