[Paper] HiDVFS:一种用于 OpenMP DAG 工作负载的分层多代理 DVFS 调度器

发布: (2026年1月10日 GMT+8 12:42)
8 min read
原文: arXiv

Source: arXiv - 2601.06425v1

概述

本文介绍了 HiDVFS,一种分层的多代理调度器,能够在每个核心上动态调整电压和频率,针对以有向无环图(DAG)表示的 OpenMP 程序。通过结合运行时分析、温度感知和强化学习式奖励,HiDVFS 在嵌入式多核平台上显著降低了执行时间和能耗,为开发性能关键、功耗受限的应用程序的开发者提供了有吸引力的解决方案。

关键贡献

  • 层次化多代理架构:三个协同的代理(核心频率选择器、温度管理器和任务优先级仲裁器)协调工作,以在最大化吞吐量的同时保持核心凉爽。
  • 先完成时间奖励函数:一种受强化学习启发的目标,优先考虑整体执行时间,但加入能量和温度的正则项,提高样本效率。
  • 基于剖析的任务分配:利用轻量级离线剖析数据预测 OpenMP DAG 工作负载的不规则执行模式,避免天真的静态核心分配。
  • 每核 DVFS 控制:不同于许多只为整片芯片设定单一频率的启发式方法,HiDVFS 持续监控每个核心的温度并独立调节其电压/频率。
  • 在真实硬件上的实证验证:在 NVIDIA Jetson TX2 上使用 BOTS 基准套件进行的大量实验表明,相比最佳的先前 DVFS 调度器(GearDVFS),可实现最高 3.95× 加速≈47 % 能耗降低

方法论

  1. 工作负载模型 – 作者关注可以表示为 DAG(有向无环图)的 OpenMP 程序,其中节点是计算任务,边表示依赖关系。

  2. 分析阶段 – 在运行之前,每个基准测试执行一次,以收集每个任务在各核心频率下的执行时间统计信息。这个轻量级的分析结果供调度器的决策引擎使用。

  3. 代理设计

    • 代理 1(核心频率选择器):查询分析器,为下一个就绪任务挑选最合适的核心‑频率组合。
    • 代理 2(温度管理器):读取片上热传感器;如果某个核心的温度超过阈值,则降低其频率或将任务迁移到更凉爽的核心。
    • 代理 3(优先级仲裁器):当多个任务竞争同一核心时,根据对整体完成时间的估计影响分配优先级。
  4. 奖励函数 – 调度器在每次调度决策后收到一个标量奖励:

    [ R = -\text{makespan} + \lambda_1 \times \text{energy_regularizer} + \lambda_2 \times \text{temp_regularizer} ]

    完成时间(makespan)项占主导,确保以性能为先的行为,而正则项则轻微惩罚高能耗或过热。

  5. 学习循环 – 使用简单的 Q‑学习更新(或策略梯度变体),代理在多次运行(种子 42、123、456)中迭代改进其策略,以收敛到平衡三项目标的调度方案。

结果与发现

指标HiDVFS(平均)GearDVFS(基线)加速比能耗降低
完成时间(秒)4.16 ± 0.58 (L10)14.32 ± 2.613.44×
总能耗(kJ)63.7128.4≈50 %
在 9 个 BOTS 基准上3.95× 加速,47.1 % 能耗削减

关键要点

  • 每核 DVFS 与温度感知相结合,可防止热降频,从而避免关键路径延长。
  • 基于分析的分配捕获不规则任务运行时间,避免了静态启发式的“一刀切”陷阱。
  • 以完成时间为首的奖励快速收敛,需要的训练回合远少于通用强化学习方法,这对离线时间受限的嵌入式系统至关重要。

Practical Implications

  • 嵌入式 AI 与边缘计算 – 像 Jetson TX2、Raspberry Pi 4 或基于 ARM 的 SoC 等设备可以集成 HiDVFS,在不产生过热的情况下,从相同的硅片资源中挤出更多的推理吞吐量。
  • 实时系统 – 通过保证更紧凑的完成时间并控制温度,HiDVFS 可用于机器人、自治无人机或汽车 ECU 等对延迟和热预算要求严格的场景。
  • 开发者工具 – 可以通过在 omp 运行周围添加一个简单的包装器来自动化分析步骤,从而能够将 HiDVFS 嵌入 CI 流水线进行性能回归测试。
  • 能耗感知调度 API – 分层代理设计可以无缝映射到已有的运行时库(例如 OpenMP runtime、Intel TBB),这些库已经提供任务图信息,从而实现逐步采用而无需重写应用代码。

限制与未来工作

  • 分析开销 – 该方法假设有一个具有代表性的离线分析运行;对于高度数据依赖且变化大的工作负载,可能需要重复进行分析。
  • 硬件特定性 – 实验仅限于 Jetson TX2;若要扩展到异构平台(CPU + GPU + NPU),需要额外的协同机制。
  • 代理的可扩展性 – 在多核系统(≥64 核)下,三代理层次结构可能成为瓶颈;作者建议探索去中心化或层次化强化学习的扩展。
  • 安全性与隔离 – 动态频率变化可能影响时序侧信道特性;未来工作可以研究针对安全敏感场景的安全 DVFS 策略。

总体而言,HiDVFS 证明了精心设计的多代理 DVFS 调度器能够为现代 OpenMP DAG 工作负载带来显著的性能和能耗提升,为开发者在当今多核嵌入式平台上利用细粒度功耗管理提供了实用路径。

作者

  • Mohammad Pivezhandi
  • Abusayeed Saifullah
  • Ali Jannesari

论文信息

  • arXiv ID: 2601.06425v1
  • 类别: cs.DC, cs.AI
  • 出版时间: 2026年1月10日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »