[Paper] 焦耳去哪儿了?诊断推理能耗

发布: (2026年1月30日 GMT+8 02:16)
8 分钟阅读
原文: arXiv

抱歉,我需要您提供要翻译的具体文本内容。请将您希望翻译成简体中文的文字粘贴在这里,我会按照要求保留源链接和原始格式进行翻译。

概览

论文 Where Do the Joules Go? Diagnosing Inference Energy Consumption 提供了首次大规模、系统化地审视现代生成式 AI 模型在推理过程中实际消耗的电能。作者在 NVIDIA H100 与 B200 GPU 上,对 46 种模型在七个任务上的能耗进行测量,揭示了惊人的能耗差距——不同大语言模型任务之间最高可达 25 倍,视频生成与图像生成工作负载之间甚至超过 100 倍。他们的工作不仅仅停留在“数值是多少”;还构建了一个诊断框架,将能耗与诸如内存流量、GPU 利用率等隐藏因素关联起来,为开发者提供了一条面向能耗感知的优化路线图。

关键贡献

  • 综合测量套件:1,858 个配置点,覆盖 46 种模型(LLMs、扩散模型、GAN 等),在两款最先进的 GPU 上进行。
  • 经验能耗分类法:量化任务类型、模型规模、批量大小、精度和硬件选择如何影响推理能耗,揭示出数量级差异。
  • 诊断框架:提出分层模型,将可观测指标(时间、功率)映射到潜在驱动因素(内存带宽、计算利用率、内核效率)。
  • 每瓦特吞吐量分析:将框架扩展到数据中心运营商关注的“每瓦特性能”指标,以实现成本和可持续性。
  • 开源工具与数据集:发布测量脚本和原始日志,支持可重复性并促进社区进一步研究。

方法论

  1. 基准选择 – 作者挑选了一组多样化的生成式 AI 工作负载(文本生成、摘要、图像扩散、视频合成等)以及具有代表性的模型系列(GPT‑style 大语言模型、Stable Diffusion、VQ‑GAN 等)。
  2. 配置扫描 – 对每个模型,作者在批量大小、精度(FP16/FP32/BF16)以及推理模式(即时执行 vs. 编译后执行)上进行变化,生成了 1,858 种不同的运行组合。
  3. 仪表化 – 通过 NVIDIA 的 NVML API 以 1 kHz 的分辨率捕获功耗,同时使用 Nsight Systems 记录时间戳、GPU 利用率、内存使用情况和 kernel 统计信息。
  4. 归一化 – 能量(焦耳)通过对推理期间的功率积分得到,然后除以生成的 token/图像/帧数量,以实现同类比较。
  5. 框架构建 – 采用回归和相关性分析,作者识别出潜在变量(例如内存受限阶段 vs. 计算受限阶段),这些变量能够最好地解释观察到的能耗差异。

该方法刻意保持硬件无关性:同一流水线可应用于任何提供功率和性能计数器的 GPU,从而使该研究能够在未来的加速器代际上复现。

结果与发现

因素观察到的能耗影响
LLM 任务类型在相同模型规模下,例如代码生成与聊天完成之间的能耗差异约为 25 倍。
媒体模态视频生成的能耗超过单图像扩散的 100 倍(在可比的视觉质量下)。
GPU 利用率低利用率(≤30 %)导致每个 token 的能耗比高效批处理高出 3–5 倍。
精度将 FP32 切换为 BF16 可将能耗降低约 30 %,且对大多数任务的质量影响可忽略不计。
批量大小将批量大小提升至 GPU 内存上限可实现近线性的能效提升,但内存超额使用会因分页导致能耗峰值。
硬件在大型 LLM 上,H100 的每瓦吞吐量约比 B200 高出 2 倍,但在较小的扩散模型上差距缩小。

诊断框架表明,内存带宽压力是视频合成高能耗的主要因素,而计算饱和主导 LLM token 生成。此外,作者展示了通过协同优化批量大小、精度和内核融合,使计算和内存流水线保持忙碌,从而最大化 每瓦吞吐量

实际意义

  • 模型服务工程师可以立即应用批量大小和精度指南,以降低运营成本而不牺牲质量。
  • 云服务提供商获得了为“能耗感知”推理端点定价的量化依据,可能为保持在计算受限状态的工作负载提供更低的费率。
  • 硬件架构师得到具体证据,表明未来的 GPU 应优先考虑平衡的内存带宽和片上缓存,以支持视频生成流水线。
  • 可持续发展团队可以使用每瓦吞吐量指标来评估数据中心升级,并为投资更新的加速器提供依据。
  • 框架开发者(例如 PyTorch、TensorFlow)可以集成作者的分析钩子,在性能仪表盘中展示潜在的利用率指标,为开发者在模型部署期间提供可操作的反馈。

简而言之,本文为开发者提供了一份 诊断清单:测量功耗、监控 GPU 利用率、调整批量大小/精度,并针对工作负载的内存与计算特性选择合适的硬件。

限制与未来工作

  • 硬件范围:本研究仅限于 NVIDIA H100 和 B200 GPU;在 AMD 或专用 ASIC 上的结果可能有所不同。
  • 仅推理关注:未探讨训练能耗动态,尽管许多相同的潜在因素可能同样适用。
  • 静态工作负载:真实的服务堆栈通常涉及请求复用和动态批处理,这可能引入在受控实验中未捕获的额外变异性。
  • 模型多样性:虽然已覆盖 46 种模型,但未包括新兴的多模态 Transformer 和检索增强生成模型。

作者建议将框架扩展到 异构集群,加入 动态工作负载调度,并探索 能耗感知的编译器优化,作为后续研究的有前景方向。

作者

  • Jae-Won Chung
  • Ruofan Wu
  • Jeff J. Ma
  • Mosharaf Chowdhury

论文信息

  • arXiv ID: 2601.22076v1
  • Categories: cs.LG, cs.DC
  • Published: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »