[Paper] RHAPSODY:大规模执行混合 AI‑HPC 工作流

发布: (2025年12月24日 GMT+8 05:42)
8 min read
原文: arXiv

Source: arXiv - 2512.20795v1

Overview

本文介绍了 RHAPSODY,这是一层中间件,使开发者能够在领袖级超级计算机上通过单个作业运行高度异构的 AI‑HPC 流水线——混合大规模模拟、深度学习训练、高通量推理以及紧耦合的代理驱动控制。RHAPSODY 通过编排现有运行时而非替换它们,弥合了传统基于 MPI 的科学代码与现代 AI 服务之间的鸿沟,使这些不同的组件能够高效地一起扩展。

关键贡献

  • 统一抽象层,用于任务、服务、资源和执行策略,能够跨 MPI、容器化 AI 服务和细粒度任务运行时工作。
  • 可组合的多运行时架构,协调现有运行时(例如 RADICAL‑Pilot、Dask、Ray、vLLM),而不是重新实现它们。
  • 低开销编排,在多个领袖级系统上展示,表现出高吞吐推理的近线性扩展和高效的 AI‑HPC 耦合。
  • 真实场景验证,包括两个代表性工作负载:(1) Dragon(科学模拟)+ vLLM 推理的大规模运行,和 (2) 一个将仿真步骤与 AI 决策紧密耦合的代理工作流。
  • 可扩展的策略引擎,允许用户在单个作业分配中为异构组件指定放置、优先级和数据移动策略。

方法论

  1. 抽象设计 – 作者定义了一组通用对象(Task、Service、Resource、Policy),用于捕获批处理式 MPI 作业和持久化 AI 服务的核心语义。
  2. 运行时组合 – RHAPSODY 在同一分配中启动每个所需的运行时(例如,通过 srun 启动 MPI 作业,通过 singularity 启动容器化推理服务器,通过 Dask 启动任务队列)。轻量级协调器在它们之间调解通信和资源共享。
  3. 基于策略的调度 – 用户提供 JSON/YAML 策略,描述每个运行时分配的节点数量、数据本地性约束以及延迟目标。协调器在启动时以及执行期间动态强制执行这些策略。
  4. 基准测试 – 实验在三套 HPC 系统(Summit、Perlmutter 和 Theta)上进行,使用:
    • 高吞吐量推理:数千个并发 vLLM 请求为 Dragon 仿真提供输入。
    • 代理工作流:一个循环,其中仿真步骤触发 AI 模型决定下一步仿真参数,需亚秒级往返延迟。
  5. 收集的指标 – 测量了运行时开销、扩展效率、端到端延迟和网络 I/O,并与各组件单独运行的基线进行比较。

结果与发现

场景扩展行为开销关键洞察
高吞吐量推理 (vLLM + Dragon)近线性扩展至 4 k 节点(≈ 98 % 效率)< 5 % 相较于原生 vLLM 的额外开销RHAPSODY 的调度器能够在仿真并行运行时保持推理工作节点饱和。
Agentic AI‑HPC 循环在 1 k 节点上保持低于 100 ms 的往返延迟~3 % 运行时开销在不牺牲底层 MPI 仿真性能的前提下,实现紧耦合。
混合工作负载 (MPI + 容器服务)资源利用均衡;双方均未出现饥饿最小的协调成本(≈ 总运行时间的 2 %)策略引擎成功实现公平并遵循用户指定的优先级。

总体而言,RHAPSODY 只增加 几百分点 的运行时开销,同时使 异构工作负载能够在同一配额中共存并扩展——这是大多数现有 HPC 调度器无法实现的。

实际影响

  • 单作业部署:开发者可以将气候模型、深度学习代理模型和强化学习控制器打包到一个 sbatch 脚本中,简化作业管理并降低排队等待时间。
  • 成本效益的资源使用:通过在 MPI 与 AI 服务之间共享节点,组织可以在昂贵的领航级系统上实现更高的利用率,降低总体计算支出。
  • AI 增强仿真的快速原型开发:研究人员可以在本地迭代智能工作流,然后在无需重写编排代码的情况下进行扩展,这得益于 RHAPSODY 的可移植策略文件。
  • 供应商无关的集成:由于 RHAPSODY 组合了现有运行时,团队可以继续使用熟悉的工具(例如 PyTorch、TensorFlow、OpenFOAM),同时获得统一调度器的优势。
  • 面向未来的保障:随着 AI 模型变得更大且更具交互性,RHAPSODY 的低延迟耦合将对数字孪生、自治科学实验和实时数据同化等新兴领域至关重要。

限制与未来工作

  • 对底层运行时的依赖:RHAPSODY 的性能受所组合运行时的能力限制(例如 MPI 启动延迟、容器启动时间)。
  • 策略复杂性:为非常大型、多租户作业制定最优资源分配策略可能并非易事,可能需要自动调优工具。
  • 容错性:当前实现假设分配相对稳定;处理节点故障或服务的动态扩展留待未来扩展。
  • 更广泛的硬件支持:作者计划集成 GPU‑direct 通信库,并探索对新兴加速器架构(如 Habana、Graphcore)的支持。

总之,RHAPSODY 证明了精心设计的中间件能够释放混合 AI‑HPC 工作流的全部潜力,为开发者提供了一条在大规模运行复杂、数据密集型流水线而不牺牲性能的实用路径。

作者

  • Aymen Alsaadi
  • Mason Hooten
  • Mariya Goliyad
  • Andre Merzky
  • Andrew Shao
  • Mikhail Titov
  • Tianle Wang
  • Yian Chen
  • Maria Kalantzi
  • Kent Lee
  • Andrew Park
  • Indira Pimpalkhare
  • Nick Radcliffe
  • Colin Wahl
  • Pete Mendygral
  • Matteo Turilli
  • Shantenu Jha

论文信息

  • arXiv ID: 2512.20795v1
  • 分类: cs.DC
  • 出版日期: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 随机良构转移系统

在将概率调度规则引入 well-structured transition systems 的基础上,我们定义了一类新的 stochastic well-structured transition systems……