[논문] 멀티캐스트를 활용한 집합 통신 가속

발행: 2주 전 (2026년 5월 21일 PM 09:50 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.22428v1

개요

AllGather와 AlltoAll 같은 집합 통신 프리미티브는 대규모 모델 학습 및 추론의 핵심이다. 본 논문은 전통적인 단일 송신(unicast) 방식 대신 다중 수신(multicast) 방식을 차용한 MultiWrite라는 다대다 전송 의미론을 도입하여, 전선 상의 중복 데이터 복사를 없애고 실제 Ascend NPU 환경에서 **최대 33 %**의 지연 감소를 달성한다.

주요 기여

MultiWrite 프리미티브: 하나의 데이터 복사본을 여러 수신자에게 전달하는 새로운 통신 의미론으로, 중복 패킷 전송을 제거한다.
실용적인 멀티캐스트 설계: AI 워크로드에서 흔히 겪는 멀티캐스트의 고비용 제어 플레인 오버헤드와 생태계 지원 부족 문제를 해결한다.
하드웨어 인식 구현: 기존 네트워크 패브릭을 활용해 새로운 물리적 멀티캐스트 하드웨어 없이 Ascend NPU 스택에 MultiWrite를 통합한다.
실증 검증: 생산 환경 디바이스에서 장시간 스트레스 테스트를 수행해 AllGather와 AlltoAll 연산 모두에서 일관된 지연 감소를 확인했다.

방법론

문제 분석 – 저자들은 Ascend NPU에서 기존 집합 연산을 프로파일링하고, 단일 송신 기반 쓰기가 동일한 페이로드를 물리적 링크를 여러 번 통과하게 하여 대역폭 경쟁을 초래한다는 점을 발견했다.
MultiWrite 설계 –
- 의미론 레이어: 다대다 쓰기를 정의하고, 런타임은 이를 일반 쓰기처럼 취급하지만 네트워크 드라이버에게는 하나의 패킷을 모든 대상에게 브로드캐스트하도록 지시한다.
- 제어 플레인 최적화: 무거운 멀티캐스트 그룹 관리를 가벼운 연산자별 디스크립터로 대체해 한 번 생성 후 재사용함으로써 오버헤드를 무시 수준으로 낮춘다.
- 호환성 쉼 – MultiWrite 프리미티브를 표준 집합 API(NCCL, HCCL 등) 뒤에 감싸 기존 학습 코드를 그대로 사용할 수 있게 한다.
구현 – Ascend 통신 라이브러리(HCCL)와 하부 드라이버를 수정해 MultiWrite 디스크립터를 인식하도록 하고, 이를 기존 메쉬 네트워크 패브릭에 매핑했다.
평가 – 상용 Ascend 디바이스에서 AllGather, AlltoAll 및 파생 학습 루프 벤치마크를 실행해 엔드‑투‑엔드 지연, 대역폭 활용도, 다일간 스트레스 테스트에서의 안정성을 측정했다.

결과 및 분석

연산자	기준(단일 송신) 지연	MultiWrite 지연	개선률
AllGather (8‑GPU)	1.20 ms	0.85 ms	29 %
AlltoAll (16‑GPU)	2.10 ms	1.45 ms	31 %
엔드‑투‑엔드 학습 단계 (BERT‑large)	12.5 ms	9.0 ms	28 %

네트워크 활용도가 약 20 % 감소했으며, 이는 각 페이로드가 링크당 한 번만 전송되었기 때문이다.
안정성: MultiWrite는 72시간 연속 실행 동안 패킷 손실이나 교착 상태 없이 성능 향상을 유지했다.
호환성: 표준 집합 API를 사용하는 MindSpore, PyTorch 등 사용자 수준 프레임워크에서 코드 변경이 전혀 필요하지 않았다.

실용적 함의

학습 사이클 가속 – 대규모 트랜스포머 모델에서 집합 지연이 30 % 감소하면 에포크 시간이 직접 줄어들어 클라우드 컴퓨팅 비용이 낮아진다.
엣지 디바이스에서의 높은 처리량 – 엣지 가속기에서도 AllGather를 활용한 모델 병렬 추론이 많다. MultiWrite는 다른 트래픽을 위한 대역폭을 확보해 실시간 응답성을 향상시킨다.
네트워크 친화적 확장성 – 클러스터가 커질수록 단일 송신 트래픽은 메쉬 패브릭을 빠르게 포화시킨다. MultiWrite의 대역폭 절감 효과는 과다 프로비저닝 없이도 노드 수를 늘리기 쉽게 만든다.
통합 노력 최소화 – MultiWrite가 기존 집합 API를 통해 제공되므로 드라이버/라이브러리 버전만 업데이트하면 별도의 대대적 리팩터링 없이 바로 도입할 수 있다.

제한 사항 및 향후 과제

하드웨어 의존성 – 현재 프로토타입은 Ascend 메쉬 네트워크의 특정 기능에 의존한다. NVIDIA NVLink, AMD Infinity Fabric 등 다른 아키텍처로 이식하려면 추가 엔지니어링이 필요하다.
연산자 범위 – 본 연구는 AllGather와 AlltoAll에 초점을 맞췄으며, ReduceScatter, Broadcast 등 다른 집합 연산으로 확장하는 작업은 향후 연구 과제로 남는다.
동적 그룹 크기 – MultiWrite는 연산당 수신자 집합이 비교적 정적이라고 가정한다. 매우 동적인 통신 패턴을 처리하려면 보다 정교한 그룹 관리가 필요할 수 있다.
보안 고려 – 멀티캐스트는 격리 메커니즘이 없을 경우 의도치 않은 수신자에게 데이터를 노출할 위험이 있다. 향후 다중 테넌트 환경을 위한 보안 멀티캐스트 프리미티브 연구가 필요하다.

핵심 요약: MultiWrite는 통신 스택에 약간의 멀티캐스트 영감을 도입함으로써 AI 워크로드에서 상당한 지연 감소를 실현한다. 기존 코드베이스를 크게 바꾸지 않고도 대규모 학습 및 추론을 가속화할 수 있는 실용적인 경로를 제공한다.

저자

Chao Xu
Xu Zhang
Zihang Luo
Yuyan Wu
Guoxin Qian
Yufeng Yao
Chihyung Wang
Jingbin Zhou

논문 정보

arXiv ID: 2605.22428v1
분류: cs.DC
발표일: 2026년 5월 21일
PDF: Download PDF

[논문] 멀티캐스트를 활용한 집합 통신 가속

개요

주요 기여

방법론

결과 및 분석

실용적 함의

제한 사항 및 향후 과제

저자

논문 정보

관련 글

[Paper] 과학 워크플로우에서 CFD 기반 PIVAEs를 통한 에너지 효율 향상

[Paper] SDNator는 또 다른 SDN 컨트롤러가 아니다: 사이버 물리 시스템에서 확장 가능한 데이터 기반 제어 구현

[논문] RocksDB에서 학습 인덱싱을 위한 실용적 접근: 최소 시스템 수정으로 목표 최적화

[Paper] HyperParallel-MoE: 멀티코어 인터리브 스케줄링을 통한 Ascend NPU에서의 빠른 MoE 훈련