[Paper] AI 数据中心的协同冷却与计算管理

发布: (2026年1月13日 GMT+8 09:07)
7 min read
原文: arXiv

Source: arXiv - 2601.08113v1

概述

托管大语言模型(LLM)推理的 AI 数据中心是地球上最耗电的设施之一。虽然研究人员长期致力于从 GPU 中挤出更多计算能力,但他们大多忽视了这些 GPU 产生的热量以及保持其安全所需的冷却系统。本文通过联合建模 计算调度热管理,弥合了这一鸿沟,并利用该模型驱动层次化控制器,在不影响延迟的前提下降低能耗。

关键贡献

  • 对 GPU 服务器在广泛 AI 工作负载和冷却设定点下的实证分析,揭示 GPU 频率、并行度与热产生之间的紧密耦合。
  • 联合计算‑热模型,同时捕捉 LLM 推理的性能动态(并行度、DVFS)和数据中心冷却基础设施的热力响应。
  • 层次化控制框架,同步选择最优的 GPU 并行度、动态电压‑频率调节(DVFS)水平以及冷却执行器设置(如风扇转速、冷冻水流量)。
  • 基于真实场景的验证,使用 Azure 推理追踪和详细的 GPU 遥测数据,展示在满足延迟服务水平目标(SLO)的前提下实现可观的能耗节省。
  • 开源制品(仿真脚本和模型参数),以促进可重复性并推动计算‑热协同优化的进一步研究。

方法论

  1. 工作负载特征化 – 作者从运行流行 LLM 推理工作负载(如 GPT‑2、BERT)的 Azure GPU 服务器上收集了细粒度指标(GPU 利用率、温度、功耗)。他们调节了两个参数:并行推理请求的数量(并行度)和 GPU 频率(通过 DVFS)。
  2. 热模型 – 使用收集的数据,构建了一个受物理启发的模型,预测机架级温度,作为总 GPU 功率、气流和冷却系统设定点的函数。该模型足够轻量,可用于在线控制。
  3. 联合优化问题 – 他们提出了一个约束优化,将总能耗(计算 + 冷却)最小化,同时保持请求延迟低于目标 SLO。决策变量包括:
    • 并行度(每个 GPU 同时处理的请求数)
    • DVFS 频率(GPU 时钟速度)
    • 冷却控制(风扇转速、冷却水流量)
  4. 分层控制器 – 一个两层控制器每隔几秒运行一次:
    • 本地层 在每台服务器上,根据当前队列长度和温度选择并行度/DVFS。
    • 全局层(跨数据中心)调整冷却设定点,以保持机架温度在安全范围内。
  5. 评估 – 控制器在一个基于真实 Azure 推理日志的追踪驱动模拟器中部署。能耗、延迟和温度与仅调节计算(无热感知)或仅调节冷却(计算静态)的基线策略进行比较。

结果与发现

指标基线(仅计算)提议的协同优化% 改进
总能耗(计算 + 冷却)1.00 × 0.78 × 降低 22 %
第 99 百分位延迟120 ms115 ms降低 4 %
平均机架温度28 °C26 °C下降 2 °C
冷却功率占比总功率的 45 %总功率的 35 %绝对下降 10 %
  • 控制器在保持 SLO(≤ 120 ms)内的延迟的同时,将整体功耗削减了五分之一。
  • 在高温期间适度降低 GPU 频率,系统避免了会导致延迟峰值的“热降频” spikes。
  • 冷却系统大部分时间以较低的风扇转速运行,使得在电力结构未完全可再生时,碳强度得到可观的降低。

实际影响

  • 数据中心运营商 可以将分层控制器集成到现有的工作负载管理器(Kubernetes、Slurm)中,实现性能与散热的自动平衡,延长硬件寿命并降低运营支出(OPEX)。
  • 以 GPU 为中心的 AI 服务(例如推理即服务平台)获得了新的手段——热感知,以在不对硬件进行过度配置的情况下满足严格的延迟 SLA。
  • 硬件供应商 可以提供更丰富的遥测数据(每核温度、风扇曲线)和更细粒度的 DVFS API,以实现更紧密的计算‑热循环。
  • 可持续性报告 受益于对能源节约归因于计算‑散热联合优化的更清晰说明,帮助企业实现 ESG 目标。
  • 该建模方法是 云无关 的;可迁移到本地 AI 集群、边缘 AI 盒子或新兴的液冷 GPU 农场。

Limitations & Future Work

  • 热模型假设稳态气流,无法捕捉由突发工作负载激增或冷却系统故障引起的快速瞬态。
  • 实验基于追踪驱动,而非在实时生产集群上运行;实际部署可能会暴露出与现有编排工具的集成挑战。
  • 本研究聚焦于以 GPU 为中心的推理;将框架扩展到异构加速器(TPU、FPGA)以及训练工作负载的工作留待未来研究。
  • 未来的工作可以探索 reinforcement‑learning‑based controllers,使其能够适应变化的环境条件和电价,以及 multi‑objective optimization,共同最小化能耗、延迟和碳排放。

作者

  • Nardos Belay Abera
  • Yize Chen

论文信息

  • arXiv ID: 2601.08113v1
  • 分类: eess.SY, cs.DC
  • 出版日期: 2026年1月13日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »