[논문] 다중 GPU ML 워크로드를 위한 자원 인식 연산·통신 겹침
개요
대규모 머신러닝(ML)의 급속한 성장으로 여러 GPU에 걸친 분산 학습이 현대 ML 시스템의 기본 요소가 되었습니다. 모델 규모와 연산 처리량이 계속 증가함에 따라, 특히 연산과 통신이 순차적으로 수행될 때 통신 오버헤드가 다중 GPU 학습에서 지배적인 병목 현상이 되고 있습니다. 본 연구는 두 가지 이식 가능한 런타임 제어를 활용하여 연산과 집합 통신을 동시에 실행하는 방식을 탐구합니다: 연산 커널을 위한 공유 메모리 기반 점유율 조정과 통신 커널을 위한 높은 스케줄링 우선순위 부여. 우리의 접근 방식은 블록당 공유 메모리 할당을 통해 연산 커널의 체류 시간을 조절하고, 통신 커널이 진행될 수 있도록 충분한 온칩 자원을 남겨 둡니다. 또한, 통신 스트림에 높은 우선순위를 부여함으로써 자원이 확보되는 즉시 안정적인 통신 진행을 보장합니다. NVIDIA A40, A100, H100 및 AMD MI250X GPU에서 수행한 실험 결과, 제안된 방법이 효과적인 연산‑통신 겹침을 가능하게 하며, 공급업체 라이브러리나 커널 구현을 수정하지 않고도 전체 실행 시간을 최대 25.5%까지 단축함을 보여줍니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.DC
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- Minyu Cui
- Miquel Pericas
논문 정보
- arXiv ID: 2606.09200v1
- 분류: cs.DC, cs.AI
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드