[Paper] AI 数据中心的协同冷却与计算管理

发布: 3周前 (2026年1月13日 GMT+8 09:07)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.08113v1

概述

托管大语言模型（LLM）推理的 AI 数据中心是地球上最耗电的设施之一。虽然研究人员长期致力于从 GPU 中挤出更多计算能力，但他们大多忽视了这些 GPU 产生的热量以及保持其安全所需的冷却系统。本文通过联合建模 计算调度 和 热管理，弥合了这一鸿沟，并利用该模型驱动层次化控制器，在不影响延迟的前提下降低能耗。

关键贡献

对 GPU 服务器在广泛 AI 工作负载和冷却设定点下的实证分析，揭示 GPU 频率、并行度与热产生之间的紧密耦合。
联合计算‑热模型，同时捕捉 LLM 推理的性能动态（并行度、DVFS）和数据中心冷却基础设施的热力响应。
层次化控制框架，同步选择最优的 GPU 并行度、动态电压‑频率调节（DVFS）水平以及冷却执行器设置（如风扇转速、冷冻水流量）。
基于真实场景的验证，使用 Azure 推理追踪和详细的 GPU 遥测数据，展示在满足延迟服务水平目标（SLO）的前提下实现可观的能耗节省。
开源制品（仿真脚本和模型参数），以促进可重复性并推动计算‑热协同优化的进一步研究。

方法论

工作负载特征化 – 作者从运行流行 LLM 推理工作负载（如 GPT‑2、BERT）的 Azure GPU 服务器上收集了细粒度指标（GPU 利用率、温度、功耗）。他们调节了两个参数：并行推理请求的数量（并行度）和 GPU 频率（通过 DVFS）。
热模型 – 使用收集的数据，构建了一个受物理启发的模型，预测机架级温度，作为总 GPU 功率、气流和冷却系统设定点的函数。该模型足够轻量，可用于在线控制。
联合优化问题 – 他们提出了一个约束优化，将总能耗（计算 + 冷却）最小化，同时保持请求延迟低于目标 SLO。决策变量包括：
- 并行度（每个 GPU 同时处理的请求数）
- DVFS 频率（GPU 时钟速度）
- 冷却控制（风扇转速、冷却水流量）
分层控制器 – 一个两层控制器每隔几秒运行一次：
- 本地层 在每台服务器上，根据当前队列长度和温度选择并行度/DVFS。
- 全局层（跨数据中心）调整冷却设定点，以保持机架温度在安全范围内。
评估 – 控制器在一个基于真实 Azure 推理日志的追踪驱动模拟器中部署。能耗、延迟和温度与仅调节计算（无热感知）或仅调节冷却（计算静态）的基线策略进行比较。

结果与发现

指标	基线（仅计算）	提议的协同优化	% 改进
总能耗（计算 + 冷却）	1.00 ×	0.78 ×	降低 22 %
第 99 百分位延迟	120 ms	115 ms	降低 4 %
平均机架温度	28 °C	26 °C	下降 2 °C
冷却功率占比	总功率的 45 %	总功率的 35 %	绝对下降 10 %

控制器在保持 SLO（≤ 120 ms）内的延迟的同时，将整体功耗削减了五分之一。
在高温期间适度降低 GPU 频率，系统避免了会导致延迟峰值的“热降频” spikes。
冷却系统大部分时间以较低的风扇转速运行，使得在电力结构未完全可再生时，碳强度得到可观的降低。

实际影响

数据中心运营商 可以将分层控制器集成到现有的工作负载管理器（Kubernetes、Slurm）中，实现性能与散热的自动平衡，延长硬件寿命并降低运营支出（OPEX）。
以 GPU 为中心的 AI 服务（例如推理即服务平台）获得了新的手段——热感知，以在不对硬件进行过度配置的情况下满足严格的延迟 SLA。
硬件供应商 可以提供更丰富的遥测数据（每核温度、风扇曲线）和更细粒度的 DVFS API，以实现更紧密的计算‑热循环。
可持续性报告 受益于对能源节约归因于计算‑散热联合优化的更清晰说明，帮助企业实现 ESG 目标。
该建模方法是 云无关 的；可迁移到本地 AI 集群、边缘 AI 盒子或新兴的液冷 GPU 农场。

Limitations & Future Work

热模型假设稳态气流，无法捕捉由突发工作负载激增或冷却系统故障引起的快速瞬态。
实验基于追踪驱动，而非在实时生产集群上运行；实际部署可能会暴露出与现有编排工具的集成挑战。
本研究聚焦于以 GPU 为中心的推理；将框架扩展到异构加速器（TPU、FPGA）以及训练工作负载的工作留待未来研究。
未来的工作可以探索 reinforcement‑learning‑based controllers，使其能够适应变化的环境条件和电价，以及 multi‑objective optimization，共同最小化能耗、延迟和碳排放。

作者

Nardos Belay Abera
Yize Chen

论文信息

arXiv ID: 2601.08113v1
分类: eess.SY, cs.DC
出版日期: 2026年1月13日
PDF: Download PDF

[Paper] AI 数据中心的协同冷却与计算管理

概述

关键贡献

方法论

结果与发现

实际影响

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 空间最优、计算最优、拓扑无关、吞吐量可扩展的 Causal Delivery 通过 Hybrid Buffering

[Paper] Konflux：优化函数融合用于无服务器应用

[Paper] AFLL：基于循环因果学习的MMO游戏服务器实时负载稳定

[Paper] 利用量子纠缠突破分布式存储的存储-带宽权衡