[Paper] 焦耳去哪儿了？诊断推理能耗

发布: 1周前 (2026年1月30日 GMT+8 02:16)

8 分钟阅读

原文: arXiv

抱歉，我需要您提供要翻译的具体文本内容。请将您希望翻译成简体中文的文字粘贴在这里，我会按照要求保留源链接和原始格式进行翻译。

概览

论文 Where Do the Joules Go? Diagnosing Inference Energy Consumption 提供了首次大规模、系统化地审视现代生成式 AI 模型在推理过程中实际消耗的电能。作者在 NVIDIA H100 与 B200 GPU 上，对 46 种模型在七个任务上的能耗进行测量，揭示了惊人的能耗差距——不同大语言模型任务之间最高可达 25 倍，视频生成与图像生成工作负载之间甚至超过 100 倍。他们的工作不仅仅停留在“数值是多少”；还构建了一个诊断框架，将能耗与诸如内存流量、GPU 利用率等隐藏因素关联起来，为开发者提供了一条面向能耗感知的优化路线图。

关键贡献

综合测量套件：1,858 个配置点，覆盖 46 种模型（LLMs、扩散模型、GAN 等），在两款最先进的 GPU 上进行。
经验能耗分类法：量化任务类型、模型规模、批量大小、精度和硬件选择如何影响推理能耗，揭示出数量级差异。
诊断框架：提出分层模型，将可观测指标（时间、功率）映射到潜在驱动因素（内存带宽、计算利用率、内核效率）。
每瓦特吞吐量分析：将框架扩展到数据中心运营商关注的“每瓦特性能”指标，以实现成本和可持续性。
开源工具与数据集：发布测量脚本和原始日志，支持可重复性并促进社区进一步研究。

方法论

基准选择 – 作者挑选了一组多样化的生成式 AI 工作负载（文本生成、摘要、图像扩散、视频合成等）以及具有代表性的模型系列（GPT‑style 大语言模型、Stable Diffusion、VQ‑GAN 等）。
配置扫描 – 对每个模型，作者在批量大小、精度（FP16/FP32/BF16）以及推理模式（即时执行 vs. 编译后执行）上进行变化，生成了 1,858 种不同的运行组合。
仪表化 – 通过 NVIDIA 的 NVML API 以 1 kHz 的分辨率捕获功耗，同时使用 Nsight Systems 记录时间戳、GPU 利用率、内存使用情况和 kernel 统计信息。
归一化 – 能量（焦耳）通过对推理期间的功率积分得到，然后除以生成的 token/图像/帧数量，以实现同类比较。
框架构建 – 采用回归和相关性分析，作者识别出潜在变量（例如内存受限阶段 vs. 计算受限阶段），这些变量能够最好地解释观察到的能耗差异。

该方法刻意保持硬件无关性：同一流水线可应用于任何提供功率和性能计数器的 GPU，从而使该研究能够在未来的加速器代际上复现。

结果与发现

因素	观察到的能耗影响
LLM 任务类型	在相同模型规模下，例如代码生成与聊天完成之间的能耗差异约为 25 倍。
媒体模态	视频生成的能耗超过单图像扩散的 100 倍（在可比的视觉质量下）。
GPU 利用率	低利用率（≤30 %）导致每个 token 的能耗比高效批处理高出 3–5 倍。
精度	将 FP32 切换为 BF16 可将能耗降低约 30 %，且对大多数任务的质量影响可忽略不计。
批量大小	将批量大小提升至 GPU 内存上限可实现近线性的能效提升，但内存超额使用会因分页导致能耗峰值。
硬件	在大型 LLM 上，H100 的每瓦吞吐量约比 B200 高出 2 倍，但在较小的扩散模型上差距缩小。

诊断框架表明，内存带宽压力是视频合成高能耗的主要因素，而计算饱和主导 LLM token 生成。此外，作者展示了通过协同优化批量大小、精度和内核融合，使计算和内存流水线保持忙碌，从而最大化 每瓦吞吐量。

实际意义

模型服务工程师可以立即应用批量大小和精度指南，以降低运营成本而不牺牲质量。
云服务提供商获得了为“能耗感知”推理端点定价的量化依据，可能为保持在计算受限状态的工作负载提供更低的费率。
硬件架构师得到具体证据，表明未来的 GPU 应优先考虑平衡的内存带宽和片上缓存，以支持视频生成流水线。
可持续发展团队可以使用每瓦吞吐量指标来评估数据中心升级，并为投资更新的加速器提供依据。
框架开发者（例如 PyTorch、TensorFlow）可以集成作者的分析钩子，在性能仪表盘中展示潜在的利用率指标，为开发者在模型部署期间提供可操作的反馈。

简而言之，本文为开发者提供了一份 诊断清单：测量功耗、监控 GPU 利用率、调整批量大小/精度，并针对工作负载的内存与计算特性选择合适的硬件。

限制与未来工作

硬件范围：本研究仅限于 NVIDIA H100 和 B200 GPU；在 AMD 或专用 ASIC 上的结果可能有所不同。
仅推理关注：未探讨训练能耗动态，尽管许多相同的潜在因素可能同样适用。
静态工作负载：真实的服务堆栈通常涉及请求复用和动态批处理，这可能引入在受控实验中未捕获的额外变异性。
模型多样性：虽然已覆盖 46 种模型，但未包括新兴的多模态 Transformer 和检索增强生成模型。

作者建议将框架扩展到 异构集群，加入 动态工作负载调度，并探索 能耗感知的编译器优化，作为后续研究的有前景方向。

作者

Jae-Won Chung
Ruofan Wu
Jeff J. Ma
Mosharaf Chowdhury

论文信息

arXiv ID: 2601.22076v1
Categories: cs.LG, cs.DC
Published: 2026年1月29日
PDF: 下载 PDF

[Paper] 焦耳去哪儿了？诊断推理能耗

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈