[Paper] SWEnergy：关于使用 SLM 的代理式问题解决框架能源效率的实证研究

发布: 2个月前 (2025年12月10日 GMT+8 19:28)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.09543v1

概览

论文 SWEnergy 探讨了当前用于软件问题解决的自主代理框架在被迫使用 小型语言模型（SLM）而非为其构建的庞大专有大模型时的表现。通过在标准基准上测量能耗、运行时间、令牌消耗和内存，作者揭示了许多框架在大量计算上浪费，却并未真正解决问题。

主要贡献

实证比较 四种流行的代理框架（SWE‑Agent、OpenHands、Mini SWE Agent、AutoCodeRover）在两种 SLM（Gemma‑3 4B 和 Qwen‑3 1.7B）下的表现。
能效剖析 在固定硬件上（能耗、时长、令牌数、内存）对每种配置进行 150 次运行的测量。
识别主要瓶颈：框架架构对能耗的影响远大于底层模型大小。
“无效推理”证据——大部分能量消耗在无效循环中，导致任务完成率几乎为零。
低能耗设计指南，建议从被动编排转向主动管理 SLM 的弱点。

方法论

基准选择——作者使用 SWE‑bench Verified Mini 套件，这是一个经过策划的真实软件缺陷修复和代码生成任务集合。
框架与模型矩阵——四个框架分别与两种 SLM 配对，形成八种配置。
受控环境——所有实验在相同硬件（仅 CPU、固定 RAM）上运行，以隔离软件层面的差异。
仪器化——通过功率计捕获能耗，同时自动记录运行时间、令牌使用和内存占用。
重复实验——每种配置进行 150 次独立运行，以确保统计显著性并降低随机波动。
成功度量——若生成的补丁通过基准中的所有验证测试，则视为任务已解决。

结果与发现

框架 (SLM)	平均能耗 (× 基准)	成功率	主要观察
AutoCodeRover (Gemma‑3)	9.4×	≈0 %	能耗最高；大量空闲推理循环。
SWE‑Agent (Qwen‑3)	6.2×	≈0 %	能耗主要来自重复提示。
Mini SWE Agent (Gemma‑3)	4.8×	≈0 %	稍好一些，但仍然低效。
OpenHands (Gemma‑3)	1.0× (基准)	≈0 %	能耗最低，仍未能解决任务。

能耗 vs. 架构：相同的 SLM 在不同框架下的能耗差异可达 9.4 倍，完全取决于外围框架。
成功率接近零：无论消耗多少能量，所有配置均未能解决大多数任务，表明 SLM 的推理能力（而非仅仅是编排）是成功的限制因素。
令牌与内存：高能耗框架生成的令牌更多、内存占用更大，进一步印证了“忙碌工作”模式。

实际意义

别把即插即用当作理所当然：在现有代理流水线中用小模型替代强大 LLM，可能会显著提升电费，却没有任何功能提升。
框架选择至关重要：在边缘设备或本地 CI/CD 机器人等对能耗敏感的场景下，轻量级编排器如 OpenHands（或自定义的最小循环）更为合适。
为 SLM 限制而设计：架构师应嵌入 主动错误检测、提前终止 与 回退策略（例如混合 LLM 调用），以避免无限推理循环。
成本感知的 CI：团队可以使用本文的剖析方法对自家代理进行基准测试，确保小模型带来的能耗节约不会被臃肿的编排抵消。
混合方案的潜力：小模型可处理廉价、重复的任务（如 lint、模板生成），仅在 SLM 表示不确定时才调用更大的模型。

局限性与未来工作

硬件范围：实验仅限于仅 CPU 的机器；GPU 加速的 SLM 可能呈现不同的能耗特征。
基准多样性：仅使用了 SWE‑bench Verified Mini 套件；更广泛的软件工程任务（如文档、设计）尚未测试。
模型选择：研究聚焦于两种 SLM；更新的开源模型（如 Llama‑3、Mistral‑7B）可能表现不同。
框架演进：四个框架均基于当前版本评估；未来版本可能加入针对 SLM 的优化。

作者建议探索 自适应编排——即监控 SLM 置信度并动态切换到更强模型或提前终止的框架，以将观察到的能耗浪费转化为可控、低功耗的解决方案。

作者

Arihant Tripathy
Ch Pavan Harshit
Karthik Vaidhyanathan

论文信息

arXiv ID: 2512.09543v1
分类: cs.SE, cs.AI
发布时间: 2025 年 12 月 10 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

许多系统在其组件之间表现出复杂的相互作用：某些特征或行为会相互放大效果，其他则提供冗余信息，……

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

Softmax attention 是 transformer 架构的核心组成部分，但其 nonlinear 结构对理论分析提出了重大挑战。我们 dev...

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型

大型语言模型（LLMs）的快速部署在机器学习（ML）领域产生了对加强安全和隐私措施的迫切需求。LLMs 正在...