[Paper] 在 Aurora 上扩展 MPI 应用

发布: 2个月前 (2025年12月4日 GMT+8 06:09)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.04291v1

概述

本文详细阐述了 Aurora 超算——阿贡国家实验室最新的旗舰机器——如何在其基于 Intel 的 CPU、GPU 与 HPE Slingshot 互连上实现最大性能。通过剖析 Aurora 的网络设计和 MPI 扩展结果，作者展示了该机器能够在前所未有的节点数量上运行真实科学代码，为 AI 与高性能仿真突破打开了大门。

关键贡献

Aurora 硬件堆栈的全面描述 – 每节点配备六块 Intel Data Center Max GPU 和两颗 Xeon Max CPU（带片上 HBM）。
Slingshot dragonfly 结构的深入分析 – 85 k Cassini NIC 和 5.6 k Rosetta 交换机，是迄今为止规模最大的 Slingshot 部署。
系统化的验证方法 – 系统化的 MPI 基准套件（OSU、Intel MPI Benchmarks）加上端到端的应用运行。
旗舰基准的性能结果 – HPL、HPL‑MxP、Graph500、HPCG，展示了 TOP500 排名和创纪录的 HPL‑MxP 吞吐量。
可扩展性案例研究 – 在数万节点上进行的大规模 HACC（宇宙学）、AMR‑Wind（计算流体动力学）、LAMMPS（分子动力学）以及快速多极方法（FMM）运行。
关于延迟‑带宽权衡的洞察，使得在 dragonfly 拓扑上实现了 exascale 级别的 MPI 通信。

方法论

作者采用了双管齐下的方式：

微基准测试 – 在递增的节点数量上执行标准 MPI 延迟和带宽测试（ping‑pong、all‑to‑all、gather/scatter），绘制网络的原始特性曲线。
应用层可扩展性 – 使用 Intel MPI 编译真实科学代码，并在约 10 k 节点上运行，测量求解时间、强/弱扩展效率以及网络流量模式。

所有实验均在生产 Aurora 分区上完成，使用相同的软件栈（Intel oneAPI、Slingshot 驱动），确保结果反映真实部署条件。

结果与发现

指标	观察结果
MPI 延迟	节点内亚微秒级，节点间平均约 1.2 µs；线性扩展至 8 k 节点。
带宽	大消息下接近线速（≈ 200 GB/s），在 dragonfly 结构上持续 > 150 GB/s。
HPL‑MxP	达到 1.8 EFLOPS，使 Aurora 成为该基准上最快的系统（2024 年 6 月）。
Graph500	1.2 × 10⁹ TEPS，验证了强网络驱动的图遍历性能。
应用扩展性	HACC 在 10 k 节点上弱扩展效率 > 80%；AMR‑Wind 与 LAMMPS 在 4 k 节点上强扩展效率 > 70%；FMM 在 6 k 节点上保持 > 75% 效率。
总体	Slingshot 结构的低延迟和高双向带宽消除了典型的 MPI 瓶颈，实现了对密集线性代数和不规则工作负载的 exascale 级吞吐。

实际意义

对 HPC 开发者：Aurora 已验证的 MPI 扩展意味着可以假设在数万节点上实现近线性性能，减少对自定义通信优化的需求。
AI 工作负载：高带宽 HBM‑CPU 与每节点六块 GPU 的组合，加上低延迟互连，为大规模模型的分布式训练提供了有力平台。
系统架构师：采用 Slingshot 的 dragonfly 拓扑展示了相较传统胖树网络的可行替代方案，以更少的交换机和更低的功耗提供相当或更佳的性能。
软件栈对齐：Intel oneAPI + MPI 在 Aurora 上的成功表明，保持在 Intel 生态系统内可以简化对 exascale 系统的移植与调优。
基准标准：Aurora 的 HPL‑MxP 纪录为未来的 exascale 机器设定了新基准，促使厂商同时关注计算密度和网络效率。

局限性与未来工作

混合工作负载下的网络争用 – 当延迟敏感与带宽密集作业共存时会出现偶发性能下降，表明需要更智能的流量整形。
超过 10 k 节点的可扩展性 – 推广到更大规模系统需更深入分析路由算法和容错机制。
能效指标 – 未对 Slingshot 互连的功耗进行量化，未来研究可探讨性能‑功耗权衡。
软件可移植性 – 对 Intel 专有工具的高度依赖可能限制在异构集群上的直接采用，计划将结果扩展到其他 MPI 实现。

总体而言，本文为开发者提供了一条明确的路线图，展示了在正确的硬件‑软件协同设计下，MPI 应用能够真正扩展到当今最强大的超级计算机的极限。

作者

Huda Ibeid
Anthony‑Trung Nguyen
Aditya Nishtala
Premanand Sakarda
Larry Kaplan
Nilakantan Mahadevan
Michael Woodacre
Victor Anisimov
Kalyan Kumaran
JaeHyuk Kwack
Vitali Morozov
Servesh Muralidharan
Scott Parker

论文信息

arXiv ID: 2512.04291v1
分类: cs.DC
发布日期: 2025 年 12 月 3 日
PDF: Download PDF

[Paper] 在 Aurora 上扩展 MPI 应用

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Metronome：差异化延迟调度用于 Serverless Functions

[Paper] 公交车上安装的 Edge 服务器可行吗？

[Paper] 编译器支持的低精度和 AoS-SoA 转换用于异构硬件

[Paper] FedGMR：在异步和模型异构性下的渐进模型恢复联邦学习