[论文] 迈向绿色 AI:解码软件开发中 LLM 推理的能耗

发布: (2026年2月5日 GMT+8 22:38)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.05712v1

Overview

大型语言模型(LLMs)现在是许多 AI‑辅助开发者工具的引擎——代码补全、bug‑fix 建议、自动化测试等。但它们生成的每个 token 都会消耗能源,规模化后会形成不容忽视的碳足迹。论文 Towards Green AI: Decoding the Energy of LLM Inference in Software Development 分析了推理过程中能源的去向,并提出了一种轻量级的解决方案,可在不影响代码生成质量的前提下将能耗削减最高达 89 %。

关键贡献

  • 阶段级能耗分析 – 将 prefill(输入编码)和 decoding(令牌生成)阶段分离,以获得对功耗的细粒度视图。
  • 对 10 种 Transformer 模型的实证研究 – 包括六个 6‑7 B 参数模型和四个 3‑4 B 参数模型,在面向代码的基准上进行评估(生成使用 HumanEval,理解使用 LongBench)。
  • 发现 “babbling” 行为 – 三个模型会产生不必要的填充令牌,导致解码能耗膨胀。
  • 抑制 babbling 的技术 – 一个简单的后处理过滤器,可裁剪多余输出,实现 44‑89 % 的能耗节省,同时保持生成准确性。
  • 量化的 prefill‑decoding 交互 – 表明更高的 prefill 成本会使每个令牌的解码能耗提升 1.3 %–51.8 %,具体取决于模型。

方法论

  1. Model selection – 作者选择了十个开源 transformer LLM,参数规模在 3 B 到 7 B 之间,覆盖了在代码相关 AI 工具中常用的 decoder‑only 与 encoder‑decoder 架构。
  2. Benchmarking
    • HumanEval: 一套 Python 编程题,用于衡量模型生成正确、可运行代码的能力。
    • LongBench: 一组长上下文代码理解任务(例如代码摘要、错误检测)。
  3. Energy measurement – 推理在相同硬件(NVIDIA A100 GPU)上执行,功耗使用高分辨率电表记录。能耗分别记录于:
    • Prefill – 处理提示并构建 KV‑cache。
    • Decoding – 使用缓存状态生成每个输出 token。
  4. Babbling detection – 检查输出流中的低信息“填充” token(如重复的注释、杂散空白)。基于 token 熵和长度的启发式方法标记 babbling 实例。
  5. Suppression strategy – 检测到 babbling 后,指示解码器提前停止或剪枝低置信度 token,从而有效缩短解码阶段。

所有步骤均已脚本化,以便在其他模型或硬件环境中复现该流水线。

结果与发现

指标6‑7 B 模型3‑4 B 模型
预填充能耗占比占总推理能耗的 15‑30 %10‑25 %
每标记解码能耗0.45 J/标记(基线)0.30 J/标记(基线)
预填充‑解码放大每标记成本增加 +1.3 % 至 +51.8 %+3.2 % 至 +38.4 %
babbling 出现频率6 个模型中有 3 个出现 babbling0 / 4 模型
通过抑制 babbling 节省的能量解码能耗降低 44 %‑89 %48 %‑85 %(适用时)
对生成准确性的影响没有统计显著下降(HumanEval pass@1 未变化)相同

关键要点

  • 解码占据能耗预算的主要部分(约占总能耗的 70‑85 %)。
  • “重”预填充阶段会使后续每个标记的成本更高,可能是因为更大的 KV‑cache 查找加大了内存带宽压力。
  • babbling 并非罕见的极端情况;一旦出现,会显著增加解码时间和功耗。
  • 简单的提前停止或标记剪枝启发式方法可消除大部分浪费,而不会影响功能输出。

实际意义

受众如何应用研究成果
工具开发者(例如 GitHub Copilot、Tabnine)将轻量级的喋喋不休检测器集成到生成流水线中;当置信度低于阈值时停止解码。
云 AI 服务提供商提供“绿色模式”API,限制预填充长度或强制 KV‑cache 大小上限,从而降低每次请求的能耗和成本。
DevOps / SRE 团队监控每次请求的推理功耗;使用论文中的分析方法为异常能耗峰值(可能的喋喋不休)设置警报。
硬件架构师优先考虑内存带宽和友好的 KV‑cache 设计,因为预填充与解码的耦合表明内存效率直接影响每个 token 的能耗。
开源模型维护者发布包含预填充/解码能耗概况的模型卡;考虑采用抑制重复填充生成的训练方案。

总体而言,研究提供了一种具体且低开销的手段——抑制喋喋不休——可直接嵌入现有推理框架,实现即时的可持续性提升。它还推动社区转向更全面的能耗感知基准,而不仅仅关注延迟或准确率。

限制与未来工作

  • 硬件范围 – 实验仅局限于单一 GPU 代(A100)。在边缘设备、CPU 或即将推出的加速器架构上,能耗动态可能会有所不同。
  • 模型多样性 – 只考察了 3‑7 B 规模的基于 Transformer 的大语言模型;更大的模型(例如 30 B 以上)或专用代码模型(Codex、CodeLlama)可能会表现出不同的预填充‑解码关系。
  • 胡言乱语定义 – 该启发式方法基于 token 熵和长度;更细致的语义分析(例如检测无意义的注释)可能提升检测精度。
  • 用户体验影响 – 虽然在基准测试中准确率保持稳定,但真实开发者工作流可能对提前停止或降低冗长度较为敏感。需要进行用户研究。

作者提出的未来研究方向包括将分析框架扩展到多 GPU 与分布式推理设置,探索在训练阶段进行干预以降低胡言乱语倾向,以及构建结合能耗、延迟和代码质量指标的标准化“绿色 AI”基准。

作者

  • Lola Solovyeva
  • Fernando Castor

论文信息

  • arXiv ID: 2602.05712v1
  • 分类: cs.SE, cs.AI
  • 出版日期: 2026年2月5日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……