[Paper] 在非统一内存访问架构中促进科学工作流调度研究

发布: (2025年11月25日 GMT+8 09:50)
6 min read
原文: arXiv

Source: arXiv - 2511.19832v1

Overview

本文介绍了 nFlows,一个将 NUMA 感知引入现代高性能计算(HPC)节点上科学工作流调度的运行时系统。通过暴露多域 CPU、HBM/DRAM 层次结构以及附加加速器的内存局部性特性,nFlows 使研究人员和工程师能够对工作流进行建模、仿真和实际运行,并考虑真实的 NUMA 效应——而大多数现有调度器(为 Grid 或 Cloud 环境设计)则完全忽略了这一点。

Key Contributions

  • nFlows Runtime – 一个全栈执行环境,能够建模 NUMA 域、异构内存(HBM 与 DRAM)以及加速器位置(GPU/FPGAs、NIC)。
  • Unified Simulation‑to‑Bare‑Metal Flow – 同一工作流描述既可以在快速离散事件模拟器中执行,也可以在真实硬件上运行,无需代码修改。
  • NUMA‑Aware Scheduling API – 提供钩子以接入自定义放置启发式算法,考虑节点层面的数据局部性。
  • Validation Framework – 系统化方法论,用于将模拟预测与实际 NUMA‑基 HPC 节点上的测量结果进行对比。
  • Open‑source Prototype – 作者公开了核心组件,社区可以复现实验并扩展平台。

Methodology

  1. System Modeling – 作者首先对典型的现代 HPC 节点(多个 CPU 插槽,每个插槽包含若干 NUMA 域、HBM 栈、DRAM 银行以及 PCIe 连接的设备)进行特性描述。他们收集了跨域内存访问的延迟和带宽矩阵。
  2. Workflow Representation – 科学工作流被表示为有向无环图(DAG),节点为任务,边为数据依赖。每个任务携带所需内存大小、计算强度以及可选的加速器亲和性等元数据。
  3. Runtime Engine – nFlows 解析 DAG,使用 Linux numactl/hwloc 查询 NUMA 拓扑,并将任务调度到特定的核心和内存区域。同时将数据缓冲区固定到选定的 NUMA 节点,以强制实现局部性。
  4. Simulation Layer – 离散事件模拟器复用相同的调度代码,但用基于延迟/带宽模型的估算计算/传输时间替代实际执行,从而实现快速的 “what‑if” 研究。
  5. Validation – 作者在一套代表性的数据密集型工作流(如基因组学流水线、气候模拟)上进行实验,既在仿真环境中运行,也在配备 HBM 与 GPU 的 2‑socket、8‑NUMA‑domain 测试平台上运行,并比较了完成时间、内存带宽利用率以及跨 NUMA 流量。

Results & Findings

  • Simulation Accuracy – 预测的完成时间与实测结果相差 ±8 %,验证了延迟/带宽模型能够捕获主要的 NUMA 效应。
  • Performance Gains – NUMA 感知的放置将跨域内存流量降低了 30‑45 %,相当于相比朴素的轮询调度器整体工作流执行时间降低 10‑20 %
  • Accelerator Co‑Location – 将 GPU 绑定任务与其对应的 NIC 放在同一 NUMA 节点,可将数据传输延迟降低约 15 %,对 I/O 密集阶段收益显著。
  • In‑Memory Execution Feasibility – 通过将中间数据集保存在与消费任务同域的 HBM 中,作者展示了对内存受限内核的最高 加速。

Practical Implications

  • HPC Application Developers 可以将 nFlows(或其 API 概念)集成到现有工作流引擎(如 Pegasus、Airflow)中,自动利用 NUMA 局部性,无需手动调优。
  • Scheduler Vendors 获得了一个用于原型化 NUMA 感知启发式算法(如域感知回填或 HBM‑优先放置)的测试平台,便于在投产集群前进行验证。
  • System Administrators 获得了一款诊断工具,可突出显示 NUMA 引起的瓶颈,帮助他们配置 BIOS/OS 设置(例如内存交错)以获得最佳吞吐。
  • Cloud‑Edge Providers 若提供具备 NUMA 特性的裸金属实例,可利用 nFlows 提供 “NUMA‑优化” 工作流服务,从而区别于通用的 VM‑based 产品。

Limitations & Future Work

  • 当前原型面向 Linux x86‑64 节点;尚未支持 ARM 系统或新兴的分布式内存架构。
  • 只评估了部分加速器(NVIDIA GPU、Intel FPGA),对 AMD GPU 或自定义 ASIC 的支持仍待完善。
  • 作者承认其延迟模型假设带宽为静态,实际运行时的动态争用(如操作系统后台流量)可能降低预测精度。
  • 未来工作方向包括 自适应调度(基于运行时遥测动态调整)、与容器编排平台的集成(Kubernetes)以及 跨多节点的分布式 NUMA 支持(例如通过 RDMA‑aware 放置)。

Authors

  • Aurelio Vivas
  • Harold Castro

Paper Information

  • arXiv ID: 2511.19832v1
  • Categories: cs.DC
  • Published: November 25, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

Friday Five — 2025年12月5日

https://www.redhat.com/rhdc/managed-files/styles/default_800/private/number-1.png.webp?itok=pDWx13kK Red Hat 将在 AWS 上提供增强的 AI 推理

Terraform 项目:简单 EC2 + 安全组

项目结构 terraform-project/ │── main.tf │── variables.tf │── outputs.tf │── providers.tf │── terraform.tfvars │── modules/ │ └── ec2/ │ ├── main.tf │ …