[论文] SPARS:一种强化学习驱动的模拟器,用于高性能计算作业调度中的功耗管理

发布: (2025年12月15日 GMT+8 20:28)
7 min read
原文: arXiv

Source: arXiv - 2512.13268v1

Overview

本文介绍了 SPARS,一个轻量级、支持强化学习(RL)的模拟器,允许研究人员和系统工程师在高性能计算(HPC)集群上实验节能感知的作业调度。通过将经典调度策略与决定何时开启或关闭节点的 RL 代理相结合,SPARS 有助于量化现代数据中心运营中能源与性能之间的权衡。

关键贡献

  • 统一的仿真框架,在单一离散事件引擎中同时建模作业调度和节点电源状态转换。
  • 即插即用的 RL 代理,可以在不重写整个调度器的情况下替代传统策略(FCFS、EASY 回填)的电源管理组件。
  • 基于 JSON 的工作负载和平台描述,使导入真实轨迹或合成作业以及定义自定义电源模型和转换延迟变得轻而易举。
  • 全面的指标收集(能耗、浪费功率、作业等待时间、节点利用率),以及自动的甘特图可视化,快速洞察。
  • 轻量级的 Batsim 替代工具,消除笨重的进程间通信,提供可复现、确定性的结果。
  • 模块化架构,鼓励以最少的样板代码快速原型化新启发式或 RL 算法。

方法论

SPARS 构建了一个 离散事件模拟器,其中每个事件对应于作业到达、作业完成或节点电源状态变化(关闭 ↔ 开启)。核心循环按时间顺序处理事件,更新系统状态并调用所选调度器:

  1. 作业调度器 – 根据所选策略(例如 FCFS、EASY 回填)决定哪些待处理作业可以启动。
  2. 电源管理器 – 可以遵循静态规则(例如在超时后关闭空闲节点),也可以查询 RL 代理。代理观察一个紧凑的状态向量(空闲节点数、排队作业、最近的电源转换历史),并为每个节点输出二进制动作(保持开启 / 关闭电源)。
  3. 转换模型 – 遵守用户指定的延迟和上下电能耗,确保延迟效应的真实性。

所有配置(作业、节点数量、功耗曲线、转换时间)均以人类可读的 JSON 文件提供,便于不同研究团队之间可重复的实验。仿真结束后,SPARS 汇总指标并渲染一张甘特图,直观展示作业执行情况与节点电源状态的对应关系。

结果与发现

  • 能源节约:相较于静态阈值策略,RL 增强的策略将总能耗降低了 12–18 %,同时将平均作业延迟保持在 5 % 以下。
  • 延迟影响:仿真器显示,激进的降功(短空闲阈值)可能使完成时间延长最高 9 %,凸显学习时机的重要性。
  • 可重复性:在使用相同随机种子的多次运行中,SPARS 产生了相同的指标轨迹,确认了确定性行为——这是 Batsim 基础设置中已知的痛点。
  • 可扩展性:在普通笔记本电脑上模拟一个拥有 1,024 个节点、10,000 个作业的集群,耗时不足 30 秒,展示了轻量级事件引擎在研究级工作负载下的良好扩展性。

实际意义

  • 数据中心运营商 可以在生产集群部署之前原型化基于强化学习的功耗管理策略,降低性能回退的风险。
  • 高性能计算软件供应商 可以将 SPARS 作为新调度器的验证步骤,确保能源效率声明有可复现的仿真数据支持。
  • 强化学习框架开发者 获得一个现成的、面向领域的环境,用于在真实的调度问题上基准测试算法(例如 DQN、PPO),无需从头构建模拟器。
  • 可持续发展倡议 能够量化不同调度策略的碳足迹影响,支持更环保的采购和运营决策。

Limitations & Future Work

  • 当前的 RL 代理在 手工构建的状态表示 上运行;更丰富的观测(例如温度、网络流量)可能提升决策效果。
  • SPARS 假设 作业运行时间是确定性的;将模型扩展以处理随机执行时间将更真实地反映实际 HPC 工作负载。
  • 电源状态转换被建模为固定延迟;引入 动态电压与频率调节 (DVFS) 可以扩大其在异构集群中的适用性。
  • 作者计划开源一套 基准套件,包括标准 HPC 跟踪数据,并与流行的 RL 库(Ray RLlib、Stable‑Baselines)集成,以降低社区的入门门槛。

作者

  • Muhammad Alfian Amrizal
  • Raka Satya Prasasta
  • Santana Yuda Pradata
  • Kadek Gemilang Santiyuda
  • Reza Pulungan
  • Hiroyuki Takizawa

论文信息

  • arXiv ID: 2512.13268v1
  • 分类: cs.DC
  • 出版日期: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »