[Paper] EET：经验驱动的提前终止以实现成本高效的软件工程代理

发布: 1个月前 (2026年1月9日 GMT+8 21:01)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.05777v1

概述

大型语言模型（LLM）驱动的软件工程（SE）代理正逐渐成为开发者的日常工具——自动生成补丁、分配 bug、并提出重构建议。然而，每一次 API 调用可能花费几美分，而单个问题往往需要多轮来回交互，导致总体成本激增。论文 “EET: Experience‑Driven Early Termination for Cost‑Efficient Software Engineering Agents” 提出了一种轻量级、数据驱动的技术，能够显著降低这些成本，同时几乎不影响代理的成功率。

关键贡献

基于经验的提前终止 (EET)： 一个框架，从先前解决的问题中挖掘结构化“经验”，并在生成过程中决定是否继续迭代可能不会提升结果。
跨代理适用性： 在三种不同的 SE 代理（例如基于 Codex、基于 GPT‑4、以及微调的 CodeGen 模型）上进行验证，无需重新训练模型。
显著的成本节约： 在 SWE‑bench Verified 基准上实现了 19 %–55 % 的总费用降低（平均 32 %），且问题解决率下降最多仅 0.2 %。
令牌级效率： 平均削减 API 调用 21 %，输入令牌 30 %，输出令牌 25 %，直接转化为更低的云服务费用。
开源发布： 所有代码、提示词以及精心整理的经验数据集均公开，可立即采用并进一步研究。

方法论

收集经验：
- 对于每个已解决的问题，系统记录结构化日志：提示序列、模型输出以及最终判定（补丁是否修复了 bug）。
- 这些日志被抽象为 经验元组（例如 “补丁‑生成步骤 X，令牌数量 Y 很少能成功修复语言 X 的问题”）。
学习提前终止规则：
- 使用经验元组训练轻量级分类器（如决策树），预测继续迭代的效用。
- 分类器基于低成本特征运行，如当前已生成的令牌数、与先前成功补丁的相似度以及来自 LLM 的置信分数。
运行时集成：
- 在新的问题解决会话中，每完成一次生成步骤，代理都会查询分类器。
- 若分类器指示改进概率低，则会 提前终止 会话，并根据简单的质量检查接受或丢弃当前最佳补丁。
评估设置：
- 实验在 SWE‑bench Verified 套件上进行（该套件收集了真实 GitHub 问题及其真实补丁）。
- 评估了三类代表性代理：基线 Codex‑style 模型、GPT‑4‑style 模型以及微调的 CodeGen 模型。
- 指标包括总费用（基于令牌使用量计算）、解决率、API 调用次数以及令牌数量。

结果与发现

指标	基线	启用EET	改进
总成本	1.00×	0.68×（平均）	‑32 %（范围 19‑55 %）
解决率	71.3 %	71.1 %	‑0.2 %（可忽略）
提前终止命中	—	11 % 的问题	–
API 调用	100 %	79 %	‑21 %
输入令牌	100 %	70 %	‑30 %
输出令牌	100 %	75 %	‑25 %

关键要点

通过提前终止无效循环实现成本节约，而不是牺牲最终补丁的质量。
该方法在不同 LLM 后端上均表现一致，说明基于经验的信号与模型无关。
虽然提前终止仅在约十分之一的问题中触发，但由于这些案例往往是令牌消耗最重的，累计的令牌减少仍然相当可观。

实际影响

针对 DevOps 和 CI 流水线： 将 EET 集成可以降低自动代码审查机器人或 “AI‑pair‑programmer” 服务的费用，使大规模部署在财务上可行。
针对提供 AI 辅助调试的 SaaS 供应商： 当后端能够保证每次请求的 token 消耗降低 ≤ 30 % 时，提供成本透明的层级（例如 “pay‑per‑issue”）会更容易实现。
针对开源贡献者： 已发布的经验数据集可用于为新语言或特定领域工具（例如面向安全的补丁生成）启动早停启发式算法。
针对开发者： 更快的响应时间——API 往返次数减少意味着更低的延迟，这在使用 AI 驱动的 IDE 扩展时会带来更流畅的交互体验。

限制与未来工作

经验偏差: EET 依赖历史问题日志；如果训练数据偏向于某些错误模式，分类器可能会过早中止本可以解决的全新案例。
早期终止信号的粒度: 当前规则集使用相对简单的特征；更丰富的语义嵌入可以捕捉更细微的线索。
对大规模代码库的可扩展性: 本研究聚焦于单文件补丁；将该方法扩展到多模块重构可能需要更复杂的终止准则。
未来方向: 作者提出 (1) 引入强化学习循环以持续优化终止策略，(2) 探索跨项目迁移学习以实现经验共享，(3) 在基准套件之外的实时开发者工作流中评估 EET。

作者

Yaoqi Guo
Ying Xiao
Jie M. Zhang
Mark Harman
Yiling Lou
Yang Liu
Zhenpeng Chen

论文信息

arXiv ID: 2601.05777v1
分类: cs.SE
出版日期: 2026年1月9日
PDF: 下载 PDF

[Paper] EET：经验驱动的提前终止以实现成本高效的软件工程代理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] SSR：通过定义和检测 DeFi 质押中的逻辑缺陷来保障质押奖励

[Paper] StriderSPD：结构引导的联合表征学习用于二进制安全补丁检测

[Paper] 从问题到洞察：基于RAG的解释生成来自软件工程制品

[Paper] Drivora：统一且可扩展的基础设施用于基于搜索的自动驾驶测试