[Paper] AI 数据中心的协同冷却与计算管理
发布: (2026年1月13日 GMT+8 09:07)
7 min read
原文: arXiv
Source: arXiv - 2601.08113v1
概述
托管大语言模型(LLM)推理的 AI 数据中心是地球上最耗电的设施之一。虽然研究人员长期致力于从 GPU 中挤出更多计算能力,但他们大多忽视了这些 GPU 产生的热量以及保持其安全所需的冷却系统。本文通过联合建模 计算调度 和 热管理,弥合了这一鸿沟,并利用该模型驱动层次化控制器,在不影响延迟的前提下降低能耗。
关键贡献
- 对 GPU 服务器在广泛 AI 工作负载和冷却设定点下的实证分析,揭示 GPU 频率、并行度与热产生之间的紧密耦合。
- 联合计算‑热模型,同时捕捉 LLM 推理的性能动态(并行度、DVFS)和数据中心冷却基础设施的热力响应。
- 层次化控制框架,同步选择最优的 GPU 并行度、动态电压‑频率调节(DVFS)水平以及冷却执行器设置(如风扇转速、冷冻水流量)。
- 基于真实场景的验证,使用 Azure 推理追踪和详细的 GPU 遥测数据,展示在满足延迟服务水平目标(SLO)的前提下实现可观的能耗节省。
- 开源制品(仿真脚本和模型参数),以促进可重复性并推动计算‑热协同优化的进一步研究。
方法论
- 工作负载特征化 – 作者从运行流行 LLM 推理工作负载(如 GPT‑2、BERT)的 Azure GPU 服务器上收集了细粒度指标(GPU 利用率、温度、功耗)。他们调节了两个参数:并行推理请求的数量(并行度)和 GPU 频率(通过 DVFS)。
- 热模型 – 使用收集的数据,构建了一个受物理启发的模型,预测机架级温度,作为总 GPU 功率、气流和冷却系统设定点的函数。该模型足够轻量,可用于在线控制。
- 联合优化问题 – 他们提出了一个约束优化,将总能耗(计算 + 冷却)最小化,同时保持请求延迟低于目标 SLO。决策变量包括:
- 并行度(每个 GPU 同时处理的请求数)
- DVFS 频率(GPU 时钟速度)
- 冷却控制(风扇转速、冷却水流量)
- 分层控制器 – 一个两层控制器每隔几秒运行一次:
- 本地层 在每台服务器上,根据当前队列长度和温度选择并行度/DVFS。
- 全局层(跨数据中心)调整冷却设定点,以保持机架温度在安全范围内。
- 评估 – 控制器在一个基于真实 Azure 推理日志的追踪驱动模拟器中部署。能耗、延迟和温度与仅调节计算(无热感知)或仅调节冷却(计算静态)的基线策略进行比较。
结果与发现
| 指标 | 基线(仅计算) | 提议的协同优化 | % 改进 |
|---|---|---|---|
| 总能耗(计算 + 冷却) | 1.00 × | 0.78 × | 降低 22 % |
| 第 99 百分位延迟 | 120 ms | 115 ms | 降低 4 % |
| 平均机架温度 | 28 °C | 26 °C | 下降 2 °C |
| 冷却功率占比 | 总功率的 45 % | 总功率的 35 % | 绝对下降 10 % |
- 控制器在保持 SLO(≤ 120 ms)内的延迟的同时,将整体功耗削减了五分之一。
- 在高温期间适度降低 GPU 频率,系统避免了会导致延迟峰值的“热降频” spikes。
- 冷却系统大部分时间以较低的风扇转速运行,使得在电力结构未完全可再生时,碳强度得到可观的降低。
实际影响
- 数据中心运营商 可以将分层控制器集成到现有的工作负载管理器(Kubernetes、Slurm)中,实现性能与散热的自动平衡,延长硬件寿命并降低运营支出(OPEX)。
- 以 GPU 为中心的 AI 服务(例如推理即服务平台)获得了新的手段——热感知,以在不对硬件进行过度配置的情况下满足严格的延迟 SLA。
- 硬件供应商 可以提供更丰富的遥测数据(每核温度、风扇曲线)和更细粒度的 DVFS API,以实现更紧密的计算‑热循环。
- 可持续性报告 受益于对能源节约归因于计算‑散热联合优化的更清晰说明,帮助企业实现 ESG 目标。
- 该建模方法是 云无关 的;可迁移到本地 AI 集群、边缘 AI 盒子或新兴的液冷 GPU 农场。
Limitations & Future Work
- 热模型假设稳态气流,无法捕捉由突发工作负载激增或冷却系统故障引起的快速瞬态。
- 实验基于追踪驱动,而非在实时生产集群上运行;实际部署可能会暴露出与现有编排工具的集成挑战。
- 本研究聚焦于以 GPU 为中心的推理;将框架扩展到异构加速器(TPU、FPGA)以及训练工作负载的工作留待未来研究。
- 未来的工作可以探索 reinforcement‑learning‑based controllers,使其能够适应变化的环境条件和电价,以及 multi‑objective optimization,共同最小化能耗、延迟和碳排放。
作者
- Nardos Belay Abera
- Yize Chen
论文信息
- arXiv ID: 2601.08113v1
- 分类: eess.SY, cs.DC
- 出版日期: 2026年1月13日
- PDF: Download PDF