[Paper] Aurora에서 MPI 애플리케이션 확장

발행: 2개월 전 (2025년 12월 4일 오전 07:09 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.04291v1

개요

이 논문은 Aurora 엑사스케일 슈퍼컴퓨터—아르곤 국립 연구소의 최신 플래그십—가 Intel 기반 CPU, GPU 및 HPE Slingshot 인터커넥트를 최대한 활용하도록 설계된 방식을 상세히 설명한다. Aurora의 네트워크 설계와 MPI 스케일링 결과를 분석함으로써, 저자들은 이 시스템이 전례 없는 노드 수에서 실제 과학 코드를 실행할 수 있음을 보여주며 AI 및 고성능 시뮬레이션 분야의 돌파구를 열어준다.

주요 기여

Aurora 하드웨어 스택에 대한 포괄적 설명 – 노드당 6개의 Intel Data Center Max GPU와 2개의 Xeon Max CPU(패키지 내 HBM 포함).
Slingshot 드래곤플라이 패브릭에 대한 심층 분석 – 85 k Cassini NIC와 5.6 k Rosetta 스위치, 현재까지 가장 큰 Slingshot 구축.
체계적인 검증 방법론 – 체계적인 MPI 벤치마크 스위트(OSU, Intel MPI Benchmarks)와 엔드‑투‑엔드 애플리케이션 실행.
플래그십 벤치마크 성능 결과 – HPL, HPL‑MxP, Graph500, HPCG 등에서 Top‑500 순위와 기록적인 HPL‑MxP 처리량 달성.
스케일러빌리티 사례 연구 – 수만 개 노드에 걸친 HACC(우주론), AMR‑Wind(전산 유체 역학), LAMMPS(분자 동역학), Fast Multipole Method(FMM) 대규모 실행.
지연‑대역폭 트레이드오프에 대한 통찰 – 드래곤플라이 토폴로지에서 엑사스케일 수준의 MPI 통신을 가능하게 함.

방법론

저자들은 두 가지 접근 방식을 채택했다:

마이크로‑벤치마킹 – 표준 MPI 지연 및 대역폭 테스트(ping‑pong, all‑to‑all, gather/scatter)를 점진적으로 늘어나는 노드 수에서 실행하여 패브릭의 기본 특성을 매핑.
애플리케이션‑레벨 스케일링 – 실제 과학 코드를 Intel MPI로 컴파일하고 ~10 k 노드까지 실행하여 해결 시간, 강/약 스케일링 효율, 네트워크 트래픽 패턴을 측정.

모든 실험은 동일한 소프트웨어 스택(Intel oneAPI, Slingshot 드라이버)을 사용한 실제 Aurora 파티션에서 수행되어 결과가 실제 배포 조건을 반영하도록 했다.

결과 및 발견

지표	관찰
MPI 지연	노드 내 서브‑마이크로초, 평균 약 1.2 µs 노드 간; 8 k 노드까지 선형적으로 확장.
대역폭	대용량 메시지에서 라인 레이트에 근접(≈ 200 GB/s); 드래곤플라이 패브릭 전체에서 지속적으로 > 150 GB/s.
HPL‑MxP	1.8 EFLOPS 달성, Aurora를 이 벤치마크에서 가장 빠른 시스템으로 만들었음(2024년 6월).
Graph500	1.2 × 10⁹ TEPS, 강력한 네트워크 기반 그래프 탐색 성능 확인.
애플리케이션 스케일링	HACC는 10 k 노드에서 약 80 % 효율로 약한 스케일링; AMR‑Wind와 LAMMPS는 4 k 노드까지 70 % 이상 강 스케일링; FMM은 6 k 노드에서 75 % 이상 효율 유지.
전체	Slingshot 패브릭의 낮은 지연시간과 높은 이분 대역폭이 전형적인 MPI 병목 현상을 제거하여, 밀집 선형 대수와 비정형 워크로드 모두에서 엑사스케일 수준의 처리량을 가능하게 함.

실용적 함의

HPC 개발자를 위해: Aurora의 검증된 MPI 스케일링 덕분에 수만 개 노드까지 거의 선형적인 성능을 가정하고 코드를 작성할 수 있어, 맞춤형 통신 최적화 필요성이 감소한다.
AI 워크로드: 고대역폭 HBM‑지원 CPU와 노드당 6개의 GPU, 저지연 패브릭이 결합된 플랫폼은 대규모 모델의 분산 학습에 매력적인 기반을 제공한다.
시스템 설계자: Slingshot을 이용한 드래곤플라이 토폴로지는 전통적인 팻‑트리 네트워크에 대한 실현 가능한 대안으로, 스위치 수와 전력 소비를 줄이면서 동등하거나 더 나은 성능을 제공한다.
소프트웨어 스택 정렬: Aurora에서 Intel oneAPI + MPI의 성공은 Intel 생태계 내에 머무르는 것이 엑사스케일 시스템 포팅 및 튜닝을 단순화할 수 있음을 시사한다.
벤치마크 표준: Aurora의 HPL‑MxP 기록은 향후 엑사스케일 머신의 새로운 기준을 설정하며, 벤더들이 컴퓨트 밀도와 네트워크 효율성을 동시에 우선시하도록 독려한다.

제한 사항 및 향후 연구

혼합 워크로드 시 네트워크 경쟁 – 지연에 민감한 작업과 대역폭 집약적 작업이 동시에 실행될 때 가끔 성능 저하가 발생, 보다 스마트한 트래픽 쉐이핑 필요.
10 k 노드 이상 스케일링 – 더 큰 시스템으로의 외삽은 라우팅 알고리즘과 내결함성에 대한 심층 분석이 요구됨.
에너지 효율성 지표 – Slingshot 패브릭의 전력 소비가 정량화되지 않았으며, 향후 연구에서는 성능‑당‑와트 트레이드오프를 탐색할 수 있음.
소프트웨어 이식성 – Intel 전용 툴링에 크게 의존하고 있어 이종 클러스터에서의 즉각적인 적용이 제한될 수 있으며, 다른 MPI 구현으로 결과를 확장하는 것이 다음 단계로 계획됨.

전반적으로 이 논문은 개발자들이 엑사스케일 자원을 활용하기 위한 구체적인 로드맵을 제공한다. 적절한 하드웨어‑소프트웨어 공동 설계가 이루어진다면, MPI 애플리케이션은 오늘날 가장 강력한 슈퍼컴퓨터의 한계를 완전히 활용할 수 있음을 보여준다.

저자

Huda Ibeid
Anthony‑Trung Nguyen
Aditya Nishtala
Premanand Sakarda
Larry Kaplan
Nilakantan Mahadevan
Michael Woodacre
Victor Anisimov
Kalyan Kumaran
JaeHyuk Kwack
Vitali Morozov
Servesh Muralidharan
Scott Parker

논문 정보

arXiv ID: 2512.04291v1
분류: cs.DC
발표일: 2025년 12월 3일
PDF: Download PDF

[Paper] Aurora에서 MPI 애플리케이션 확장

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Metronome: 서버리스 함수를 위한 차별화된 지연 스케줄링

[Paper] 버스 장착형 Edge Servers는 실현 가능할까?

[Paper] 컴파일러 지원 감소 정밀도 및 AoS-SoA 변환을 위한 이기종 하드웨어

[Paper] FedGMR: 비동기와 모델 이질성 하에서 점진적 모델 복원을 이용한 Federated Learning