[Paper] 在 Aurora 上扩展 MPI 应用

发布: (2025年12月4日 GMT+8 06:09)
6 min read
原文: arXiv

Source: arXiv - 2512.04291v1

概述

本文详细阐述了 Aurora 超算——阿贡国家实验室最新的旗舰机器——如何在其基于 Intel 的 CPU、GPU 与 HPE Slingshot 互连上实现最大性能。通过剖析 Aurora 的网络设计和 MPI 扩展结果,作者展示了该机器能够在前所未有的节点数量上运行真实科学代码,为 AI 与高性能仿真突破打开了大门。

关键贡献

  • Aurora 硬件堆栈的全面描述 – 每节点配备六块 Intel Data Center Max GPU 和两颗 Xeon Max CPU(带片上 HBM)。
  • Slingshot dragonfly 结构的深入分析 – 85 k Cassini NIC 和 5.6 k Rosetta 交换机,是迄今为止规模最大的 Slingshot 部署。
  • 系统化的验证方法 – 系统化的 MPI 基准套件(OSU、Intel MPI Benchmarks)加上端到端的应用运行。
  • 旗舰基准的性能结果 – HPL、HPL‑MxP、Graph500、HPCG,展示了 TOP500 排名和创纪录的 HPL‑MxP 吞吐量。
  • 可扩展性案例研究 – 在数万节点上进行的大规模 HACC(宇宙学)、AMR‑Wind(计算流体动力学)、LAMMPS(分子动力学)以及快速多极方法(FMM)运行。
  • 关于延迟‑带宽权衡的洞察,使得在 dragonfly 拓扑上实现了 exascale 级别的 MPI 通信。

方法论

作者采用了双管齐下的方式:

  1. 微基准测试 – 在递增的节点数量上执行标准 MPI 延迟和带宽测试(ping‑pong、all‑to‑all、gather/scatter),绘制网络的原始特性曲线。
  2. 应用层可扩展性 – 使用 Intel MPI 编译真实科学代码,并在约 10 k 节点上运行,测量求解时间、强/弱扩展效率以及网络流量模式。

所有实验均在生产 Aurora 分区上完成,使用相同的软件栈(Intel oneAPI、Slingshot 驱动),确保结果反映真实部署条件。

结果与发现

指标观察结果
MPI 延迟节点内亚微秒级,节点间平均约 1.2 µs;线性扩展至 8 k 节点。
带宽大消息下接近线速(≈ 200 GB/s),在 dragonfly 结构上持续 > 150 GB/s。
HPL‑MxP达到 1.8 EFLOPS,使 Aurora 成为该基准上最快的系统(2024 年 6 月)。
Graph5001.2 × 10⁹ TEPS,验证了强网络驱动的图遍历性能。
应用扩展性HACC 在 10 k 节点上弱扩展效率 > 80%;AMR‑Wind 与 LAMMPS 在 4 k 节点上强扩展效率 > 70%;FMM 在 6 k 节点上保持 > 75% 效率。
总体Slingshot 结构的低延迟和高双向带宽消除了典型的 MPI 瓶颈,实现了对密集线性代数和不规则工作负载的 exascale 级吞吐。

实际意义

  • 对 HPC 开发者:Aurora 已验证的 MPI 扩展意味着可以假设在数万节点上实现近线性性能,减少对自定义通信优化的需求。
  • AI 工作负载:高带宽 HBM‑CPU 与每节点六块 GPU 的组合,加上低延迟互连,为大规模模型的分布式训练提供了有力平台。
  • 系统架构师:采用 Slingshot 的 dragonfly 拓扑展示了相较传统胖树网络的可行替代方案,以更少的交换机和更低的功耗提供相当或更佳的性能。
  • 软件栈对齐:Intel oneAPI + MPI 在 Aurora 上的成功表明,保持在 Intel 生态系统内可以简化对 exascale 系统的移植与调优。
  • 基准标准:Aurora 的 HPL‑MxP 纪录为未来的 exascale 机器设定了新基准,促使厂商同时关注计算密度和网络效率。

局限性与未来工作

  • 混合工作负载下的网络争用 – 当延迟敏感与带宽密集作业共存时会出现偶发性能下降,表明需要更智能的流量整形。
  • 超过 10 k 节点的可扩展性 – 推广到更大规模系统需更深入分析路由算法和容错机制。
  • 能效指标 – 未对 Slingshot 互连的功耗进行量化,未来研究可探讨性能‑功耗权衡。
  • 软件可移植性 – 对 Intel 专有工具的高度依赖可能限制在异构集群上的直接采用,计划将结果扩展到其他 MPI 实现。

总体而言,本文为开发者提供了一条明确的路线图,展示了在正确的硬件‑软件协同设计下,MPI 应用能够真正扩展到当今最强大的超级计算机的极限。

作者

  • Huda Ibeid
  • Anthony‑Trung Nguyen
  • Aditya Nishtala
  • Premanand Sakarda
  • Larry Kaplan
  • Nilakantan Mahadevan
  • Michael Woodacre
  • Victor Anisimov
  • Kalyan Kumaran
  • JaeHyuk Kwack
  • Vitali Morozov
  • Servesh Muralidharan
  • Scott Parker

论文信息

  • arXiv ID: 2512.04291v1
  • 分类: cs.DC
  • 发布日期: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »