[Paper] 实时数字孪生用于自适应调度
发布: (2025年12月22日 GMT+8 05:37)
6 min read
原文: arXiv
Source: arXiv - 2512.18894v1
概述
本文介绍了 SchedTwin,一种实时数字孪生框架,能够持续镜像 HPC 集群的调度器,运行快速的“what‑if”模拟以评估替代策略,并自动为当前工作负载挑选最佳策略。通过将传统上静态、启发式驱动的调度循环转变为自适应决策引擎,作者在生产 PBS 系统上展示了可衡量的性能提升,每个调度周期仅增加几秒的开销。
关键贡献
- Digital‑twin architecture for scheduling – 一个轻量级、持续更新的实时调度器副本,可并行评估多种策略。
- Fast what‑if simulation engine – 高保真离散事件模拟器,经过优化可在秒级返回结果,实现实时反馈。
- Policy‑selection controller – 将模拟结果映射到管理员定义的目标(如吞吐量、公平性、能耗)的算法。
- Open‑source implementation – SchedTwin 以宽松许可证发布,并已集成到广泛使用的 PBS 调度器中。
- Empirical validation – 在生产 HPC 集群上的实验表明,相较于 FCFS、回填和基于优先级的静态策略,性能提升稳定。
方法论
- 事件摄取 – SchedTwin 接入生产调度器(PBS),定期拉取作业提交、完成以及资源状态更新。
- 状态复制 – 将捕获的事件用于在离散事件仿真模型中重建当前集群状态,该模型镜像真实硬件(节点数量、核心数量、网络拓扑)。
- 策略评估 – 对于每个调度周期,Twin 在仿真状态上运行多个候选策略(例如,回填、最短作业优先、能耗感知)。由于仿真器高度优化(事件驱动、最小化账目),每次运行仅需几秒钟即可完成。
- 目标驱动选择 – 将结果(如预测的作业等待时间、系统利用率、功耗)依据管理员的目标函数进行打分。得分最高的策略被选中,其决策随后返回给实时调度器。
- 反馈回路 – 实际调度器执行所选决策后,进入下一个周期,保持 Twin 与真实系统同步。
结果与发现
| 指标 | 静态策略(基线) | SchedTwin(最佳策略) | 改进 |
|---|---|---|---|
| 平均作业等待时间 | 12.4 分钟 | 9.1 分钟 | ‑27 % |
| 系统利用率(CPU) | 78 % | 84 % | +6 % |
| 能源消耗(每作业千瓦时) | 0.42 | 0.38 | ‑9 % |
| 每周期开销 | – | 2–4 秒 | 与多小时调度窗口相比可忽略不计 |
作者强调,SchedTwin 从不降低性能;即使在模拟的“最佳”策略对特定工作负载并非最优时,其开销也足够低,实时调度器可以回退到默认策略而不会产生明显影响。
Practical Implications
- 动态工作负载适配 – 数据中心可以在吞吐量导向和公平性导向的策略之间自动切换,以应对一天中不断变化的作业组合。
- 节能 – 在利用率低时选择节能策略,运营者可以在不牺牲作业周转时间的前提下降低功耗。
- 降低管理员负担 – 管理员无需再手动调节启发式参数;数字孪生系统会持续针对所选目标进行优化。
- 即插即用的现有堆栈 – 由于 SchedTwin 与 PBS 集成(并可通过少量适配器扩展到其他兼容 Slurm 的调度器),组织可以在不进行系统全面重构的情况下采用它。
- AI 增强调度的基础 – 数字孪生框架提供了一个沙盒,机器学习模型可以在安全的环境中进行训练和评估,然后再部署。
限制与未来工作
- 可扩展到超大规模集群 – 当前原型已在中等规模生产系统上验证;将仿真扩展到数万节点可能需要进一步的并行化。
- 策略库的广度 – 仅评估了少数经典策略;将框架扩展以纳入更复杂、领域特定的启发式(例如 GPU 感知调度)留待未来工作。
- 对预测误差的鲁棒性 – 双胞胎模型假设仿真模型能够忠实反映真实硬件行为;若出现不匹配(如网络争用),可能导致次优选择。
- 用户层面的 QoS 约束 – 将每个用户或每个项目的 SLA 纳入目标函数仍是一个未解决的挑战。
作者计划探索分布式仿真技术、更丰富的策略目录以及与基于机器学习的决策者更紧密的集成,以弥补这些不足。
作者
- Yihe Zhang
- Yash Kurkure
- Yiheng Tao
- Michael E. Papka
- Zhiling Lan
Paper Information
- arXiv ID: 2512.18894v1
- 分类: cs.DC
- 发布日期: 2025年12月21日
- PDF: 下载 PDF