[Paper] 在 Aurora 上扩展 MPI 应用
发布: (2025年12月4日 GMT+8 06:09)
6 min read
原文: arXiv
Source: arXiv - 2512.04291v1
概述
本文详细阐述了 Aurora 超算——阿贡国家实验室最新的旗舰机器——如何在其基于 Intel 的 CPU、GPU 与 HPE Slingshot 互连上实现最大性能。通过剖析 Aurora 的网络设计和 MPI 扩展结果,作者展示了该机器能够在前所未有的节点数量上运行真实科学代码,为 AI 与高性能仿真突破打开了大门。
关键贡献
- Aurora 硬件堆栈的全面描述 – 每节点配备六块 Intel Data Center Max GPU 和两颗 Xeon Max CPU(带片上 HBM)。
- Slingshot dragonfly 结构的深入分析 – 85 k Cassini NIC 和 5.6 k Rosetta 交换机,是迄今为止规模最大的 Slingshot 部署。
- 系统化的验证方法 – 系统化的 MPI 基准套件(OSU、Intel MPI Benchmarks)加上端到端的应用运行。
- 旗舰基准的性能结果 – HPL、HPL‑MxP、Graph500、HPCG,展示了 TOP500 排名和创纪录的 HPL‑MxP 吞吐量。
- 可扩展性案例研究 – 在数万节点上进行的大规模 HACC(宇宙学)、AMR‑Wind(计算流体动力学)、LAMMPS(分子动力学)以及快速多极方法(FMM)运行。
- 关于延迟‑带宽权衡的洞察,使得在 dragonfly 拓扑上实现了 exascale 级别的 MPI 通信。
方法论
作者采用了双管齐下的方式:
- 微基准测试 – 在递增的节点数量上执行标准 MPI 延迟和带宽测试(ping‑pong、all‑to‑all、gather/scatter),绘制网络的原始特性曲线。
- 应用层可扩展性 – 使用 Intel MPI 编译真实科学代码,并在约 10 k 节点上运行,测量求解时间、强/弱扩展效率以及网络流量模式。
所有实验均在生产 Aurora 分区上完成,使用相同的软件栈(Intel oneAPI、Slingshot 驱动),确保结果反映真实部署条件。
结果与发现
| 指标 | 观察结果 |
|---|---|
| MPI 延迟 | 节点内亚微秒级,节点间平均约 1.2 µs;线性扩展至 8 k 节点。 |
| 带宽 | 大消息下接近线速(≈ 200 GB/s),在 dragonfly 结构上持续 > 150 GB/s。 |
| HPL‑MxP | 达到 1.8 EFLOPS,使 Aurora 成为该基准上最快的系统(2024 年 6 月)。 |
| Graph500 | 1.2 × 10⁹ TEPS,验证了强网络驱动的图遍历性能。 |
| 应用扩展性 | HACC 在 10 k 节点上弱扩展效率 > 80%;AMR‑Wind 与 LAMMPS 在 4 k 节点上强扩展效率 > 70%;FMM 在 6 k 节点上保持 > 75% 效率。 |
| 总体 | Slingshot 结构的低延迟和高双向带宽消除了典型的 MPI 瓶颈,实现了对密集线性代数和不规则工作负载的 exascale 级吞吐。 |
实际意义
- 对 HPC 开发者:Aurora 已验证的 MPI 扩展意味着可以假设在数万节点上实现近线性性能,减少对自定义通信优化的需求。
- AI 工作负载:高带宽 HBM‑CPU 与每节点六块 GPU 的组合,加上低延迟互连,为大规模模型的分布式训练提供了有力平台。
- 系统架构师:采用 Slingshot 的 dragonfly 拓扑展示了相较传统胖树网络的可行替代方案,以更少的交换机和更低的功耗提供相当或更佳的性能。
- 软件栈对齐:Intel oneAPI + MPI 在 Aurora 上的成功表明,保持在 Intel 生态系统内可以简化对 exascale 系统的移植与调优。
- 基准标准:Aurora 的 HPL‑MxP 纪录为未来的 exascale 机器设定了新基准,促使厂商同时关注计算密度和网络效率。
局限性与未来工作
- 混合工作负载下的网络争用 – 当延迟敏感与带宽密集作业共存时会出现偶发性能下降,表明需要更智能的流量整形。
- 超过 10 k 节点的可扩展性 – 推广到更大规模系统需更深入分析路由算法和容错机制。
- 能效指标 – 未对 Slingshot 互连的功耗进行量化,未来研究可探讨性能‑功耗权衡。
- 软件可移植性 – 对 Intel 专有工具的高度依赖可能限制在异构集群上的直接采用,计划将结果扩展到其他 MPI 实现。
总体而言,本文为开发者提供了一条明确的路线图,展示了在正确的硬件‑软件协同设计下,MPI 应用能够真正扩展到当今最强大的超级计算机的极限。
作者
- Huda Ibeid
- Anthony‑Trung Nguyen
- Aditya Nishtala
- Premanand Sakarda
- Larry Kaplan
- Nilakantan Mahadevan
- Michael Woodacre
- Victor Anisimov
- Kalyan Kumaran
- JaeHyuk Kwack
- Vitali Morozov
- Servesh Muralidharan
- Scott Parker
论文信息
- arXiv ID: 2512.04291v1
- 分类: cs.DC
- 发布日期: 2025 年 12 月 3 日
- PDF: Download PDF