[Paper] SWEnergy:关于使用 SLM 的代理式问题解决框架能源效率的实证研究

发布: (2025年12月10日 GMT+8 19:28)
6 min read
原文: arXiv

Source: arXiv - 2512.09543v1

概览

论文 SWEnergy 探讨了当前用于软件问题解决的自主代理框架在被迫使用 小型语言模型(SLM)而非为其构建的庞大专有大模型时的表现。通过在标准基准上测量能耗、运行时间、令牌消耗和内存,作者揭示了许多框架在大量计算上浪费,却并未真正解决问题。

主要贡献

  • 实证比较 四种流行的代理框架(SWE‑Agent、OpenHands、Mini SWE Agent、AutoCodeRover)在两种 SLM(Gemma‑3 4B 和 Qwen‑3 1.7B)下的表现。
  • 能效剖析 在固定硬件上(能耗、时长、令牌数、内存)对每种配置进行 150 次运行的测量。
  • 识别主要瓶颈:框架架构对能耗的影响远大于底层模型大小。
  • “无效推理”证据——大部分能量消耗在无效循环中,导致任务完成率几乎为零。
  • 低能耗设计指南,建议从被动编排转向主动管理 SLM 的弱点。

方法论

  1. 基准选择——作者使用 SWE‑bench Verified Mini 套件,这是一个经过策划的真实软件缺陷修复和代码生成任务集合。
  2. 框架与模型矩阵——四个框架分别与两种 SLM 配对,形成八种配置。
  3. 受控环境——所有实验在相同硬件(仅 CPU、固定 RAM)上运行,以隔离软件层面的差异。
  4. 仪器化——通过功率计捕获能耗,同时自动记录运行时间、令牌使用和内存占用。
  5. 重复实验——每种配置进行 150 次独立运行,以确保统计显著性并降低随机波动。
  6. 成功度量——若生成的补丁通过基准中的所有验证测试,则视为任务已解决。

结果与发现

框架 (SLM)平均能耗 (× 基准)成功率主要观察
AutoCodeRover (Gemma‑3)9.4×≈0 %能耗最高;大量空闲推理循环。
SWE‑Agent (Qwen‑3)6.2×≈0 %能耗主要来自重复提示。
Mini SWE Agent (Gemma‑3)4.8×≈0 %稍好一些,但仍然低效。
OpenHands (Gemma‑3)1.0× (基准)≈0 %能耗最低,仍未能解决任务。
  • 能耗 vs. 架构:相同的 SLM 在不同框架下的能耗差异可达 9.4 倍,完全取决于外围框架。
  • 成功率接近零:无论消耗多少能量,所有配置均未能解决大多数任务,表明 SLM 的推理能力(而非仅仅是编排)是成功的限制因素。
  • 令牌与内存:高能耗框架生成的令牌更多、内存占用更大,进一步印证了“忙碌工作”模式。

实际意义

  • 别把即插即用当作理所当然:在现有代理流水线中用小模型替代强大 LLM,可能会显著提升电费,却没有任何功能提升。
  • 框架选择至关重要:在边缘设备或本地 CI/CD 机器人等对能耗敏感的场景下,轻量级编排器如 OpenHands(或自定义的最小循环)更为合适。
  • 为 SLM 限制而设计:架构师应嵌入 主动错误检测提前终止回退策略(例如混合 LLM 调用),以避免无限推理循环。
  • 成本感知的 CI:团队可以使用本文的剖析方法对自家代理进行基准测试,确保小模型带来的能耗节约不会被臃肿的编排抵消。
  • 混合方案的潜力:小模型可处理廉价、重复的任务(如 lint、模板生成),仅在 SLM 表示不确定时才调用更大的模型。

局限性与未来工作

  • 硬件范围:实验仅限于仅 CPU 的机器;GPU 加速的 SLM 可能呈现不同的能耗特征。
  • 基准多样性:仅使用了 SWE‑bench Verified Mini 套件;更广泛的软件工程任务(如文档、设计)尚未测试。
  • 模型选择:研究聚焦于两种 SLM;更新的开源模型(如 Llama‑3、Mistral‑7B)可能表现不同。
  • 框架演进:四个框架均基于当前版本评估;未来版本可能加入针对 SLM 的优化。

作者建议探索 自适应编排——即监控 SLM 置信度并动态切换到更强模型或提前终止的框架,以将观察到的能耗浪费转化为可控、低功耗的解决方案。

作者

  • Arihant Tripathy
  • Ch Pavan Harshit
  • Karthik Vaidhyanathan

论文信息

  • arXiv ID: 2512.09543v1
  • 分类: cs.SE, cs.AI
  • 发布时间: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »