[论文] SPARS：一种强化学习驱动的模拟器，用于高性能计算作业调度中的功耗管理

发布: 3天前 (2025年12月15日 GMT+8 20:28)

7 min read

原文: arXiv

Source: arXiv - 2512.13268v1

Overview

本文介绍了 SPARS，一个轻量级、支持强化学习（RL）的模拟器，允许研究人员和系统工程师在高性能计算（HPC）集群上实验节能感知的作业调度。通过将经典调度策略与决定何时开启或关闭节点的 RL 代理相结合，SPARS 有助于量化现代数据中心运营中能源与性能之间的权衡。

SPARS 构建了一个 离散事件模拟器，其中每个事件对应于作业到达、作业完成或节点电源状态变化（关闭 ↔ 开启）。核心循环按时间顺序处理事件，更新系统状态并调用所选调度器：

作业调度器 – 根据所选策略（例如 FCFS、EASY 回填）决定哪些待处理作业可以启动。
电源管理器 – 可以遵循静态规则（例如在超时后关闭空闲节点），也可以查询 RL 代理。代理观察一个紧凑的状态向量（空闲节点数、排队作业、最近的电源转换历史），并为每个节点输出二进制动作（保持开启 / 关闭电源）。
转换模型 – 遵守用户指定的延迟和上下电能耗，确保延迟效应的真实性。

所有配置（作业、节点数量、功耗曲线、转换时间）均以人类可读的 JSON 文件提供，便于不同研究团队之间可重复的实验。仿真结束后，SPARS 汇总指标并渲染一张甘特图，直观展示作业执行情况与节点电源状态的对应关系。

能源节约：相较于静态阈值策略，RL 增强的策略将总能耗降低了 12–18 %，同时将平均作业延迟保持在 5 % 以下。
延迟影响：仿真器显示，激进的降功（短空闲阈值）可能使完成时间延长最高 9 %，凸显学习时机的重要性。
可重复性：在使用相同随机种子的多次运行中，SPARS 产生了相同的指标轨迹，确认了确定性行为——这是 Batsim 基础设置中已知的痛点。
可扩展性：在普通笔记本电脑上模拟一个拥有 1,024 个节点、10,000 个作业的集群，耗时不足 30 秒，展示了轻量级事件引擎在研究级工作负载下的良好扩展性。

当前的 RL 代理在 手工构建的状态表示 上运行；更丰富的观测（例如温度、网络流量）可能提升决策效果。
SPARS 假设 作业运行时间是确定性的；将模型扩展以处理随机执行时间将更真实地反映实际 HPC 工作负载。
电源状态转换被建模为固定延迟；引入 动态电压与频率调节 (DVFS) 可以扩大其在异构集群中的适用性。
作者计划开源一套 基准套件，包括标准 HPC 跟踪数据，并与流行的 RL 库（Ray RLlib、Stable‑Baselines）集成，以降低社区的入门门槛。