[Paper] 在非统一内存访问架构中促进科学工作流调度研究

发布: 2个月前 (2025年11月25日 GMT+8 09:50)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.19832v1

Overview

本文介绍了 nFlows，一个将 NUMA 感知引入现代高性能计算（HPC）节点上科学工作流调度的运行时系统。通过暴露多域 CPU、HBM/DRAM 层次结构以及附加加速器的内存局部性特性，nFlows 使研究人员和工程师能够对工作流进行建模、仿真和实际运行，并考虑真实的 NUMA 效应——而大多数现有调度器（为 Grid 或 Cloud 环境设计）则完全忽略了这一点。

Key Contributions

nFlows Runtime – 一个全栈执行环境，能够建模 NUMA 域、异构内存（HBM 与 DRAM）以及加速器位置（GPU/FPGAs、NIC）。
Unified Simulation‑to‑Bare‑Metal Flow – 同一工作流描述既可以在快速离散事件模拟器中执行，也可以在真实硬件上运行，无需代码修改。
NUMA‑Aware Scheduling API – 提供钩子以接入自定义放置启发式算法，考虑节点层面的数据局部性。
Validation Framework – 系统化方法论，用于将模拟预测与实际 NUMA‑基 HPC 节点上的测量结果进行对比。
Open‑source Prototype – 作者公开了核心组件，社区可以复现实验并扩展平台。

Methodology

System Modeling – 作者首先对典型的现代 HPC 节点（多个 CPU 插槽，每个插槽包含若干 NUMA 域、HBM 栈、DRAM 银行以及 PCIe 连接的设备）进行特性描述。他们收集了跨域内存访问的延迟和带宽矩阵。
Workflow Representation – 科学工作流被表示为有向无环图（DAG），节点为任务，边为数据依赖。每个任务携带所需内存大小、计算强度以及可选的加速器亲和性等元数据。
Runtime Engine – nFlows 解析 DAG，使用 Linux numactl/hwloc 查询 NUMA 拓扑，并将任务调度到特定的核心和内存区域。同时将数据缓冲区固定到选定的 NUMA 节点，以强制实现局部性。
Simulation Layer – 离散事件模拟器复用相同的调度代码，但用基于延迟/带宽模型的估算计算/传输时间替代实际执行，从而实现快速的 “what‑if” 研究。
Validation – 作者在一套代表性的数据密集型工作流（如基因组学流水线、气候模拟）上进行实验，既在仿真环境中运行，也在配备 HBM 与 GPU 的 2‑socket、8‑NUMA‑domain 测试平台上运行，并比较了完成时间、内存带宽利用率以及跨 NUMA 流量。

Results & Findings

Simulation Accuracy – 预测的完成时间与实测结果相差 ±8 %，验证了延迟/带宽模型能够捕获主要的 NUMA 效应。
Performance Gains – NUMA 感知的放置将跨域内存流量降低了 30‑45 %，相当于相比朴素的轮询调度器整体工作流执行时间降低 10‑20 %。
Accelerator Co‑Location – 将 GPU 绑定任务与其对应的 NIC 放在同一 NUMA 节点，可将数据传输延迟降低约 15 %，对 I/O 密集阶段收益显著。
In‑Memory Execution Feasibility – 通过将中间数据集保存在与消费任务同域的 HBM 中，作者展示了对内存受限内核的最高 2× 加速。

Practical Implications

HPC Application Developers 可以将 nFlows（或其 API 概念）集成到现有工作流引擎（如 Pegasus、Airflow）中，自动利用 NUMA 局部性，无需手动调优。
Scheduler Vendors 获得了一个用于原型化 NUMA 感知启发式算法（如域感知回填或 HBM‑优先放置）的测试平台，便于在投产集群前进行验证。
System Administrators 获得了一款诊断工具，可突出显示 NUMA 引起的瓶颈，帮助他们配置 BIOS/OS 设置（例如内存交错）以获得最佳吞吐。
Cloud‑Edge Providers 若提供具备 NUMA 特性的裸金属实例，可利用 nFlows 提供 “NUMA‑优化” 工作流服务，从而区别于通用的 VM‑based 产品。

Limitations & Future Work

当前原型面向 Linux x86‑64 节点；尚未支持 ARM 系统或新兴的分布式内存架构。
只评估了部分加速器（NVIDIA GPU、Intel FPGA），对 AMD GPU 或自定义 ASIC 的支持仍待完善。
作者承认其延迟模型假设带宽为静态，实际运行时的动态争用（如操作系统后台流量）可能降低预测精度。
未来工作方向包括 自适应调度（基于运行时遥测动态调整）、与容器编排平台的集成（Kubernetes）以及 跨多节点的分布式 NUMA 支持（例如通过 RDMA‑aware 放置）。

Authors

Aurelio Vivas
Harold Castro

Paper Information

arXiv ID: 2511.19832v1
Categories: cs.DC
Published: November 25, 2025
PDF: Download PDF

[Paper] 在非统一内存访问架构中促进科学工作流调度研究

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

# 优化 Docker 镜像：高效构建的最佳实践

Amazon EKS 功能：快速概览

为什么在AI时代，初级开发者仍然是必不可少的

AWS re:Invent 2025：如何观看并实时跟进