[Paper] Aurora에서 MPI 애플리케이션 확장

발행: (2025년 12월 4일 오전 07:09 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.04291v1

개요

이 논문은 Aurora 엑사스케일 슈퍼컴퓨터—아르곤 국립 연구소의 최신 플래그십—가 Intel 기반 CPU, GPU 및 HPE Slingshot 인터커넥트를 최대한 활용하도록 설계된 방식을 상세히 설명한다. Aurora의 네트워크 설계와 MPI 스케일링 결과를 분석함으로써, 저자들은 이 시스템이 전례 없는 노드 수에서 실제 과학 코드를 실행할 수 있음을 보여주며 AI 및 고성능 시뮬레이션 분야의 돌파구를 열어준다.

주요 기여

  • Aurora 하드웨어 스택에 대한 포괄적 설명 – 노드당 6개의 Intel Data Center Max GPU와 2개의 Xeon Max CPU(패키지 내 HBM 포함).
  • Slingshot 드래곤플라이 패브릭에 대한 심층 분석 – 85 k Cassini NIC와 5.6 k Rosetta 스위치, 현재까지 가장 큰 Slingshot 구축.
  • 체계적인 검증 방법론 – 체계적인 MPI 벤치마크 스위트(OSU, Intel MPI Benchmarks)와 엔드‑투‑엔드 애플리케이션 실행.
  • 플래그십 벤치마크 성능 결과 – HPL, HPL‑MxP, Graph500, HPCG 등에서 Top‑500 순위와 기록적인 HPL‑MxP 처리량 달성.
  • 스케일러빌리티 사례 연구 – 수만 개 노드에 걸친 HACC(우주론), AMR‑Wind(전산 유체 역학), LAMMPS(분자 동역학), Fast Multipole Method(FMM) 대규모 실행.
  • 지연‑대역폭 트레이드오프에 대한 통찰 – 드래곤플라이 토폴로지에서 엑사스케일 수준의 MPI 통신을 가능하게 함.

방법론

저자들은 두 가지 접근 방식을 채택했다:

  1. 마이크로‑벤치마킹 – 표준 MPI 지연 및 대역폭 테스트(ping‑pong, all‑to‑all, gather/scatter)를 점진적으로 늘어나는 노드 수에서 실행하여 패브릭의 기본 특성을 매핑.
  2. 애플리케이션‑레벨 스케일링 – 실제 과학 코드를 Intel MPI로 컴파일하고 ~10 k 노드까지 실행하여 해결 시간, 강/약 스케일링 효율, 네트워크 트래픽 패턴을 측정.

모든 실험은 동일한 소프트웨어 스택(Intel oneAPI, Slingshot 드라이버)을 사용한 실제 Aurora 파티션에서 수행되어 결과가 실제 배포 조건을 반영하도록 했다.

결과 및 발견

지표관찰
MPI 지연노드 내 서브‑마이크로초, 평균 약 1.2 µs 노드 간; 8 k 노드까지 선형적으로 확장.
대역폭대용량 메시지에서 라인 레이트에 근접(≈ 200 GB/s); 드래곤플라이 패브릭 전체에서 지속적으로 > 150 GB/s.
HPL‑MxP1.8 EFLOPS 달성, Aurora를 이 벤치마크에서 가장 빠른 시스템으로 만들었음(2024년 6월).
Graph5001.2 × 10⁹ TEPS, 강력한 네트워크 기반 그래프 탐색 성능 확인.
애플리케이션 스케일링HACC는 10 k 노드에서 약 80 % 효율로 약한 스케일링; AMR‑Wind와 LAMMPS는 4 k 노드까지 70 % 이상 강 스케일링; FMM은 6 k 노드에서 75 % 이상 효율 유지.
전체Slingshot 패브릭의 낮은 지연시간과 높은 이분 대역폭이 전형적인 MPI 병목 현상을 제거하여, 밀집 선형 대수와 비정형 워크로드 모두에서 엑사스케일 수준의 처리량을 가능하게 함.

실용적 함의

  • HPC 개발자를 위해: Aurora의 검증된 MPI 스케일링 덕분에 수만 개 노드까지 거의 선형적인 성능을 가정하고 코드를 작성할 수 있어, 맞춤형 통신 최적화 필요성이 감소한다.
  • AI 워크로드: 고대역폭 HBM‑지원 CPU와 노드당 6개의 GPU, 저지연 패브릭이 결합된 플랫폼은 대규모 모델의 분산 학습에 매력적인 기반을 제공한다.
  • 시스템 설계자: Slingshot을 이용한 드래곤플라이 토폴로지는 전통적인 팻‑트리 네트워크에 대한 실현 가능한 대안으로, 스위치 수와 전력 소비를 줄이면서 동등하거나 더 나은 성능을 제공한다.
  • 소프트웨어 스택 정렬: Aurora에서 Intel oneAPI + MPI의 성공은 Intel 생태계 내에 머무르는 것이 엑사스케일 시스템 포팅 및 튜닝을 단순화할 수 있음을 시사한다.
  • 벤치마크 표준: Aurora의 HPL‑MxP 기록은 향후 엑사스케일 머신의 새로운 기준을 설정하며, 벤더들이 컴퓨트 밀도와 네트워크 효율성을 동시에 우선시하도록 독려한다.

제한 사항 및 향후 연구

  • 혼합 워크로드 시 네트워크 경쟁 – 지연에 민감한 작업과 대역폭 집약적 작업이 동시에 실행될 때 가끔 성능 저하가 발생, 보다 스마트한 트래픽 쉐이핑 필요.
  • 10 k 노드 이상 스케일링 – 더 큰 시스템으로의 외삽은 라우팅 알고리즘과 내결함성에 대한 심층 분석이 요구됨.
  • 에너지 효율성 지표 – Slingshot 패브릭의 전력 소비가 정량화되지 않았으며, 향후 연구에서는 성능‑당‑와트 트레이드오프를 탐색할 수 있음.
  • 소프트웨어 이식성 – Intel 전용 툴링에 크게 의존하고 있어 이종 클러스터에서의 즉각적인 적용이 제한될 수 있으며, 다른 MPI 구현으로 결과를 확장하는 것이 다음 단계로 계획됨.

전반적으로 이 논문은 개발자들이 엑사스케일 자원을 활용하기 위한 구체적인 로드맵을 제공한다. 적절한 하드웨어‑소프트웨어 공동 설계가 이루어진다면, MPI 애플리케이션은 오늘날 가장 강력한 슈퍼컴퓨터의 한계를 완전히 활용할 수 있음을 보여준다.

저자

  • Huda Ibeid
  • Anthony‑Trung Nguyen
  • Aditya Nishtala
  • Premanand Sakarda
  • Larry Kaplan
  • Nilakantan Mahadevan
  • Michael Woodacre
  • Victor Anisimov
  • Kalyan Kumaran
  • JaeHyuk Kwack
  • Vitali Morozov
  • Servesh Muralidharan
  • Scott Parker

논문 정보

  • arXiv ID: 2512.04291v1
  • 분류: cs.DC
  • 발표일: 2025년 12월 3일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »