[Paper] 实时数字孪生用于自适应调度

发布: (2025年12月22日 GMT+8 05:37)
6 min read
原文: arXiv

Source: arXiv - 2512.18894v1

概述

本文介绍了 SchedTwin,一种实时数字孪生框架,能够持续镜像 HPC 集群的调度器,运行快速的“what‑if”模拟以评估替代策略,并自动为当前工作负载挑选最佳策略。通过将传统上静态、启发式驱动的调度循环转变为自适应决策引擎,作者在生产 PBS 系统上展示了可衡量的性能提升,每个调度周期仅增加几秒的开销。

关键贡献

  • Digital‑twin architecture for scheduling – 一个轻量级、持续更新的实时调度器副本,可并行评估多种策略。
  • Fast what‑if simulation engine – 高保真离散事件模拟器,经过优化可在秒级返回结果,实现实时反馈。
  • Policy‑selection controller – 将模拟结果映射到管理员定义的目标(如吞吐量、公平性、能耗)的算法。
  • Open‑source implementation – SchedTwin 以宽松许可证发布,并已集成到广泛使用的 PBS 调度器中。
  • Empirical validation – 在生产 HPC 集群上的实验表明,相较于 FCFS、回填和基于优先级的静态策略,性能提升稳定。

方法论

  1. 事件摄取 – SchedTwin 接入生产调度器(PBS),定期拉取作业提交、完成以及资源状态更新。
  2. 状态复制 – 将捕获的事件用于在离散事件仿真模型中重建当前集群状态,该模型镜像真实硬件(节点数量、核心数量、网络拓扑)。
  3. 策略评估 – 对于每个调度周期,Twin 在仿真状态上运行多个候选策略(例如,回填、最短作业优先、能耗感知)。由于仿真器高度优化(事件驱动、最小化账目),每次运行仅需几秒钟即可完成。
  4. 目标驱动选择 – 将结果(如预测的作业等待时间、系统利用率、功耗)依据管理员的目标函数进行打分。得分最高的策略被选中,其决策随后返回给实时调度器。
  5. 反馈回路 – 实际调度器执行所选决策后,进入下一个周期,保持 Twin 与真实系统同步。

结果与发现

指标静态策略(基线)SchedTwin(最佳策略)改进
平均作业等待时间12.4 分钟9.1 分钟‑27 %
系统利用率(CPU)78 %84 %+6 %
能源消耗(每作业千瓦时)0.420.38‑9 %
每周期开销2–4 秒与多小时调度窗口相比可忽略不计

作者强调,SchedTwin 从不降低性能;即使在模拟的“最佳”策略对特定工作负载并非最优时,其开销也足够低,实时调度器可以回退到默认策略而不会产生明显影响。

Practical Implications

  • 动态工作负载适配 – 数据中心可以在吞吐量导向和公平性导向的策略之间自动切换,以应对一天中不断变化的作业组合。
  • 节能 – 在利用率低时选择节能策略,运营者可以在不牺牲作业周转时间的前提下降低功耗。
  • 降低管理员负担 – 管理员无需再手动调节启发式参数;数字孪生系统会持续针对所选目标进行优化。
  • 即插即用的现有堆栈 – 由于 SchedTwin 与 PBS 集成(并可通过少量适配器扩展到其他兼容 Slurm 的调度器),组织可以在不进行系统全面重构的情况下采用它。
  • AI 增强调度的基础 – 数字孪生框架提供了一个沙盒,机器学习模型可以在安全的环境中进行训练和评估,然后再部署。

限制与未来工作

  • 可扩展到超大规模集群 – 当前原型已在中等规模生产系统上验证;将仿真扩展到数万节点可能需要进一步的并行化。
  • 策略库的广度 – 仅评估了少数经典策略;将框架扩展以纳入更复杂、领域特定的启发式(例如 GPU 感知调度)留待未来工作。
  • 对预测误差的鲁棒性 – 双胞胎模型假设仿真模型能够忠实反映真实硬件行为;若出现不匹配(如网络争用),可能导致次优选择。
  • 用户层面的 QoS 约束 – 将每个用户或每个项目的 SLA 纳入目标函数仍是一个未解决的挑战。

作者计划探索分布式仿真技术、更丰富的策略目录以及与基于机器学习的决策者更紧密的集成,以弥补这些不足。

作者

  • Yihe Zhang
  • Yash Kurkure
  • Yiheng Tao
  • Michael E. Papka
  • Zhiling Lan

Paper Information

  • arXiv ID: 2512.18894v1
  • 分类: cs.DC
  • 发布日期: 2025年12月21日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »