[Paper] RHAPSODY：大规模执行混合 AI‑HPC 工作流

发布: 1个月前 (2025年12月24日 GMT+8 05:42)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.20795v1

Overview

本文介绍了 RHAPSODY，这是一层中间件，使开发者能够在领袖级超级计算机上通过单个作业运行高度异构的 AI‑HPC 流水线——混合大规模模拟、深度学习训练、高通量推理以及紧耦合的代理驱动控制。RHAPSODY 通过编排现有运行时而非替换它们，弥合了传统基于 MPI 的科学代码与现代 AI 服务之间的鸿沟，使这些不同的组件能够高效地一起扩展。

关键贡献

统一抽象层，用于任务、服务、资源和执行策略，能够跨 MPI、容器化 AI 服务和细粒度任务运行时工作。
可组合的多运行时架构，协调现有运行时（例如 RADICAL‑Pilot、Dask、Ray、vLLM），而不是重新实现它们。
低开销编排，在多个领袖级系统上展示，表现出高吞吐推理的近线性扩展和高效的 AI‑HPC 耦合。
真实场景验证，包括两个代表性工作负载：(1) Dragon（科学模拟）+ vLLM 推理的大规模运行，和 (2) 一个将仿真步骤与 AI 决策紧密耦合的代理工作流。
可扩展的策略引擎，允许用户在单个作业分配中为异构组件指定放置、优先级和数据移动策略。

方法论

抽象设计 – 作者定义了一组通用对象（Task、Service、Resource、Policy），用于捕获批处理式 MPI 作业和持久化 AI 服务的核心语义。
运行时组合 – RHAPSODY 在同一分配中启动每个所需的运行时（例如，通过 srun 启动 MPI 作业，通过 singularity 启动容器化推理服务器，通过 Dask 启动任务队列）。轻量级协调器在它们之间调解通信和资源共享。
基于策略的调度 – 用户提供 JSON/YAML 策略，描述每个运行时分配的节点数量、数据本地性约束以及延迟目标。协调器在启动时以及执行期间动态强制执行这些策略。
基准测试 – 实验在三套 HPC 系统（Summit、Perlmutter 和 Theta）上进行，使用：
- 高吞吐量推理：数千个并发 vLLM 请求为 Dragon 仿真提供输入。
- 代理工作流：一个循环，其中仿真步骤触发 AI 模型决定下一步仿真参数，需亚秒级往返延迟。
收集的指标 – 测量了运行时开销、扩展效率、端到端延迟和网络 I/O，并与各组件单独运行的基线进行比较。

结果与发现

场景	扩展行为	开销	关键洞察
高吞吐量推理 (vLLM + Dragon)	近线性扩展至 4 k 节点（≈ 98 % 效率）	< 5 % 相较于原生 vLLM 的额外开销	RHAPSODY 的调度器能够在仿真并行运行时保持推理工作节点饱和。
Agentic AI‑HPC 循环	在 1 k 节点上保持低于 100 ms 的往返延迟	~3 % 运行时开销	在不牺牲底层 MPI 仿真性能的前提下，实现紧耦合。
混合工作负载 (MPI + 容器服务)	资源利用均衡；双方均未出现饥饿	最小的协调成本（≈ 总运行时间的 2 %）	策略引擎成功实现公平并遵循用户指定的优先级。

总体而言，RHAPSODY 只增加 几百分点 的运行时开销，同时使 异构工作负载能够在同一配额中共存并扩展——这是大多数现有 HPC 调度器无法实现的。

实际影响

单作业部署：开发者可以将气候模型、深度学习代理模型和强化学习控制器打包到一个 sbatch 脚本中，简化作业管理并降低排队等待时间。
成本效益的资源使用：通过在 MPI 与 AI 服务之间共享节点，组织可以在昂贵的领航级系统上实现更高的利用率，降低总体计算支出。
AI 增强仿真的快速原型开发：研究人员可以在本地迭代智能工作流，然后在无需重写编排代码的情况下进行扩展，这得益于 RHAPSODY 的可移植策略文件。
供应商无关的集成：由于 RHAPSODY 组合了现有运行时，团队可以继续使用熟悉的工具（例如 PyTorch、TensorFlow、OpenFOAM），同时获得统一调度器的优势。
面向未来的保障：随着 AI 模型变得更大且更具交互性，RHAPSODY 的低延迟耦合将对数字孪生、自治科学实验和实时数据同化等新兴领域至关重要。

限制与未来工作

对底层运行时的依赖：RHAPSODY 的性能受所组合运行时的能力限制（例如 MPI 启动延迟、容器启动时间）。
策略复杂性：为非常大型、多租户作业制定最优资源分配策略可能并非易事，可能需要自动调优工具。
容错性：当前实现假设分配相对稳定；处理节点故障或服务的动态扩展留待未来扩展。
更广泛的硬件支持：作者计划集成 GPU‑direct 通信库，并探索对新兴加速器架构（如 Habana、Graphcore）的支持。

总之，RHAPSODY 证明了精心设计的中间件能够释放混合 AI‑HPC 工作流的全部潜力，为开发者提供了一条在大规模运行复杂、数据密集型流水线而不牺牲性能的实用路径。

作者

Aymen Alsaadi
Mason Hooten
Mariya Goliyad
Andre Merzky
Andrew Shao
Mikhail Titov
Tianle Wang
Yian Chen
Maria Kalantzi
Kent Lee
Andrew Park
Indira Pimpalkhare
Nick Radcliffe
Colin Wahl
Pete Mendygral
Matteo Turilli
Shantenu Jha

论文信息

arXiv ID: 2512.20795v1
分类: cs.DC
出版日期: 2025年12月23日
PDF: 下载 PDF

[Paper] RHAPSODY：大规模执行混合 AI‑HPC 工作流

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] 可适应云架构首届研讨会论文集

[Paper] FUSCO：通过变换-通信融合实现高性能分布式数据洗牌

在异构网络和不可靠连接下的鲁棒联邦微调：聚合视角

[Paper] BLEST：极其高效的 BFS 使用 Tensor Cores