[논문] 다중 GPU ML 워크로드를 위한 자원 인식 연산·통신 겹침

발행: 3일 전 (2026년 6월 8일 PM 05:33 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.09200v1

개요

대규모 머신러닝(ML)의 급속한 성장으로 여러 GPU에 걸친 분산 학습이 현대 ML 시스템의 기본 요소가 되었습니다. 모델 규모와 연산 처리량이 계속 증가함에 따라, 특히 연산과 통신이 순차적으로 수행될 때 통신 오버헤드가 다중 GPU 학습에서 지배적인 병목 현상이 되고 있습니다. 본 연구는 두 가지 이식 가능한 런타임 제어를 활용하여 연산과 집합 통신을 동시에 실행하는 방식을 탐구합니다: 연산 커널을 위한 공유 메모리 기반 점유율 조정과 통신 커널을 위한 높은 스케줄링 우선순위 부여. 우리의 접근 방식은 블록당 공유 메모리 할당을 통해 연산 커널의 체류 시간을 조절하고, 통신 커널이 진행될 수 있도록 충분한 온칩 자원을 남겨 둡니다. 또한, 통신 스트림에 높은 우선순위를 부여함으로써 자원이 확보되는 즉시 안정적인 통신 진행을 보장합니다. NVIDIA A40, A100, H100 및 AMD MI250X GPU에서 수행한 실험 결과, 제안된 방법이 효과적인 연산‑통신 겹침을 가능하게 하며, 공급업체 라이브러리나 커널 구현을 수정하지 않고도 전체 실행 시간을 최대 25.5%까지 단축함을 보여줍니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.DC
cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.DC 분야의 발전에 기여합니다.

저자

Minyu Cui
Miquel Pericas

논문 정보

arXiv ID: 2606.09200v1
분류: cs.DC, cs.AI
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 다중 GPU ML 워크로드를 위한 자원 인식 연산·통신 겹침

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입

[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지

[논문] 결손 모달리티가 있는 다중모달 학습을 위한 잠재 세계 복원