[Paper] RHAPSODY:大规模执行混合 AI‑HPC 工作流
发布: (2025年12月24日 GMT+8 05:42)
8 min read
原文: arXiv
Source: arXiv - 2512.20795v1
Overview
本文介绍了 RHAPSODY,这是一层中间件,使开发者能够在领袖级超级计算机上通过单个作业运行高度异构的 AI‑HPC 流水线——混合大规模模拟、深度学习训练、高通量推理以及紧耦合的代理驱动控制。RHAPSODY 通过编排现有运行时而非替换它们,弥合了传统基于 MPI 的科学代码与现代 AI 服务之间的鸿沟,使这些不同的组件能够高效地一起扩展。
关键贡献
- 统一抽象层,用于任务、服务、资源和执行策略,能够跨 MPI、容器化 AI 服务和细粒度任务运行时工作。
- 可组合的多运行时架构,协调现有运行时(例如 RADICAL‑Pilot、Dask、Ray、vLLM),而不是重新实现它们。
- 低开销编排,在多个领袖级系统上展示,表现出高吞吐推理的近线性扩展和高效的 AI‑HPC 耦合。
- 真实场景验证,包括两个代表性工作负载:(1) Dragon(科学模拟)+ vLLM 推理的大规模运行,和 (2) 一个将仿真步骤与 AI 决策紧密耦合的代理工作流。
- 可扩展的策略引擎,允许用户在单个作业分配中为异构组件指定放置、优先级和数据移动策略。
方法论
- 抽象设计 – 作者定义了一组通用对象(Task、Service、Resource、Policy),用于捕获批处理式 MPI 作业和持久化 AI 服务的核心语义。
- 运行时组合 – RHAPSODY 在同一分配中启动每个所需的运行时(例如,通过
srun启动 MPI 作业,通过singularity启动容器化推理服务器,通过Dask启动任务队列)。轻量级协调器在它们之间调解通信和资源共享。 - 基于策略的调度 – 用户提供 JSON/YAML 策略,描述每个运行时分配的节点数量、数据本地性约束以及延迟目标。协调器在启动时以及执行期间动态强制执行这些策略。
- 基准测试 – 实验在三套 HPC 系统(Summit、Perlmutter 和 Theta)上进行,使用:
- 高吞吐量推理:数千个并发 vLLM 请求为 Dragon 仿真提供输入。
- 代理工作流:一个循环,其中仿真步骤触发 AI 模型决定下一步仿真参数,需亚秒级往返延迟。
- 收集的指标 – 测量了运行时开销、扩展效率、端到端延迟和网络 I/O,并与各组件单独运行的基线进行比较。
结果与发现
| 场景 | 扩展行为 | 开销 | 关键洞察 |
|---|---|---|---|
| 高吞吐量推理 (vLLM + Dragon) | 近线性扩展至 4 k 节点(≈ 98 % 效率) | < 5 % 相较于原生 vLLM 的额外开销 | RHAPSODY 的调度器能够在仿真并行运行时保持推理工作节点饱和。 |
| Agentic AI‑HPC 循环 | 在 1 k 节点上保持低于 100 ms 的往返延迟 | ~3 % 运行时开销 | 在不牺牲底层 MPI 仿真性能的前提下,实现紧耦合。 |
| 混合工作负载 (MPI + 容器服务) | 资源利用均衡;双方均未出现饥饿 | 最小的协调成本(≈ 总运行时间的 2 %) | 策略引擎成功实现公平并遵循用户指定的优先级。 |
总体而言,RHAPSODY 只增加 几百分点 的运行时开销,同时使 异构工作负载能够在同一配额中共存并扩展——这是大多数现有 HPC 调度器无法实现的。
实际影响
- 单作业部署:开发者可以将气候模型、深度学习代理模型和强化学习控制器打包到一个
sbatch脚本中,简化作业管理并降低排队等待时间。 - 成本效益的资源使用:通过在 MPI 与 AI 服务之间共享节点,组织可以在昂贵的领航级系统上实现更高的利用率,降低总体计算支出。
- AI 增强仿真的快速原型开发:研究人员可以在本地迭代智能工作流,然后在无需重写编排代码的情况下进行扩展,这得益于 RHAPSODY 的可移植策略文件。
- 供应商无关的集成:由于 RHAPSODY 组合了现有运行时,团队可以继续使用熟悉的工具(例如 PyTorch、TensorFlow、OpenFOAM),同时获得统一调度器的优势。
- 面向未来的保障:随着 AI 模型变得更大且更具交互性,RHAPSODY 的低延迟耦合将对数字孪生、自治科学实验和实时数据同化等新兴领域至关重要。
限制与未来工作
- 对底层运行时的依赖:RHAPSODY 的性能受所组合运行时的能力限制(例如 MPI 启动延迟、容器启动时间)。
- 策略复杂性:为非常大型、多租户作业制定最优资源分配策略可能并非易事,可能需要自动调优工具。
- 容错性:当前实现假设分配相对稳定;处理节点故障或服务的动态扩展留待未来扩展。
- 更广泛的硬件支持:作者计划集成 GPU‑direct 通信库,并探索对新兴加速器架构(如 Habana、Graphcore)的支持。
总之,RHAPSODY 证明了精心设计的中间件能够释放混合 AI‑HPC 工作流的全部潜力,为开发者提供了一条在大规模运行复杂、数据密集型流水线而不牺牲性能的实用路径。
作者
- Aymen Alsaadi
- Mason Hooten
- Mariya Goliyad
- Andre Merzky
- Andrew Shao
- Mikhail Titov
- Tianle Wang
- Yian Chen
- Maria Kalantzi
- Kent Lee
- Andrew Park
- Indira Pimpalkhare
- Nick Radcliffe
- Colin Wahl
- Pete Mendygral
- Matteo Turilli
- Shantenu Jha
论文信息
- arXiv ID: 2512.20795v1
- 分类: cs.DC
- 出版日期: 2025年12月23日
- PDF: 下载 PDF