[Paper] TokenPowerBench:基准测试 LLM 推理的功耗

发布: (2025年12月3日 GMT+8 02:50)
7 min read
原文: arXiv

Source: arXiv - 2512.03024v1

概览

大型语言模型(LLM)如今每天要处理数十亿次查询,而它们的大部分能耗来自 推理,而非训练。本文介绍了 TokenPowerBench,这是首个开源基准,能够让工程师在无需昂贵硬件计量仪的情况下,以焦耳/标记的精度测量和分析 LLM 推理的功耗。

关键贡献

  • 声明式基准配置 – 通过简洁的 YAML/JSON 接口选择模型、提示集、批大小、量化方式和推理引擎。
  • 统一功耗测量层 – 仅使用软件可访问的计数器(如 NVIDIA‑SMI、RAPL)捕获 GPU、节点和整机功耗,免除外部计量仪的需求。
  • 相位对齐的指标流水线 – 将能耗核算拆分为 prefill(上下文加载)和 decode(标记生成)两个阶段,为每个请求生成“每标记焦耳”和“每 prefill 标记焦耳”。
  • 广泛评估 – 覆盖 Llama、Falcon、Qwen、Mistral 系列,参数规模从 1 B 到 405 B,涉及多种批大小、上下文长度、并行策略和量化方案。
  • 开源发布 – 完整的基准套件、数据收集脚本和分析 notebook 均公开,以促进可复现的能效研究。

方法论

  1. 配置 – 用户编写简短的声明式文件,指定模型检查点、提示集合(包括长度分布)、批大小以及推理后端(如 HuggingFace Transformers、vLLM、TensorRT‑LLM)。
  2. 仪表化 – 运行期间,TokenPowerBench 以可配置的间隔(默认 10 ms)轮询功率读取 API(GPU 使用 NVIDIA‑SMI,CPU 使用 Intel‑RAPL,整机使用 OS 级计数器)。
  3. 相位标记 – 基准在推理循环中插入轻量钩子,标记每个请求的 prefilldecode 阶段的开始/结束。
  4. 能量归属 – 将收集到的功率样本随时间积分后,按活跃相位比例分配,得到每标记的能耗数值。
  5. 分析 – 后处理脚本聚合多次运行结果,按标记数归一化,并可视化批大小、上下文长度、量化(如 INT8、FP16)和并行方式(张量并行 vs 流水线并行)对能效的影响。

整个流水线可在单节点或多节点集群上运行,且仅依赖标准系统接口,能够直接嵌入现有 CI/CD 流程,实现持续的能效监控。

结果与发现

模型(参数)批大小上下文长度量化每标记焦耳(解码)
Llama‑2‑7B1512FP160.12 J
Llama‑2‑7B32512FP160.045 J
Falcon‑40B81024INT80.09 J
Mistral‑7B‑V0.1162048FP160.07 J
Llama‑3‑405B12048BF160.31 J

关键要点

  • 批处理优势显著 – 将批大小从 1 提升到 32 可将每标记能耗降低约 60 %,因为 GPU 利用率大幅提升。
  • 上下文长度影响显著 – Prefill 能耗随上下文大小近线性增长;解码成本基本保持不变。
  • 量化收益可观 – INT8 量化可将解码能耗降低约 25 %,且对多数工作负载的质量影响微乎其微。
  • 并行方式的权衡 – 张量并行提升吞吐量,但可能增加节点整体功耗;基准量化了其对每标记焦耳的净影响。
  • 前沿模型仍然昂贵 – 405 B 的 Llama‑3 每标记耗能 >0.3 J,凸显需要 aggressive 量化或专用硬件以实现成本效益。

实际意义

  • 成本预测 – 运维人员可将 TokenPowerBench 集成到部署流水线,预测电费(如 $/M 标记)并比较云服务商的计价模型。
  • 可持续性报告 – 每标记能耗数据支持精确的碳足迹计算,帮助满足 ESG 合规要求。
  • 硬件选型 – 在不同 GPU(A100、H100、消费级 RTX)上运行相同基准,开发者可据此做出数据驱动的硬件升级决策。
  • 优化闭环 – 团队能够自动化测试新量化技巧、内核库或推理引擎的影响,缩短研究原型到生产级效率的差距。
  • 服务等级协议(SLA) – 可在 SLA 中加入能耗指标(如“99 % 请求的每标记能耗 ≤ 0.08 J”),为客户提供运营可持续性的透明度。

局限性与未来工作

  • 硬件依赖 – 当前的功率读取方式在 NVIDIA GPU 与 Intel CPU 上表现最佳,AMD 或 ARM 平台仍需额外适配器。
  • 相位标记粒度 – 极短提示(< 10 标记)会产生计时噪声,使每标记归属不够稳定。
  • 模型特定开销 – 基准尚未捕获内存控制器功耗或冷却系统差异,这在大规模集群中可能占主导。
  • 未来方向 – 扩展至边缘设备推理,集成新兴低功耗加速器(如 Habana、Gaudi),并加入自动化“能耗预算”调优循环,实现批大小或量化方式的动态调整。

作者

  • 陈旭 牛
  • 张 伟
  • 李 杰
  • 赵 永健
  • 王 同阳
  • 王 洗
  • 陈 勇

论文信息

  • arXiv ID: 2512.03024v1
  • 分类: cs.LG, cs.AI, cs.CY, cs.DC
  • 发布日期: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »