[Paper] EET:经验驱动的提前终止以实现成本高效的软件工程代理

发布: (2026年1月9日 GMT+8 21:01)
7 min read
原文: arXiv

Source: arXiv - 2601.05777v1

概述

大型语言模型(LLM)驱动的软件工程(SE)代理正逐渐成为开发者的日常工具——自动生成补丁、分配 bug、并提出重构建议。然而,每一次 API 调用可能花费几美分,而单个问题往往需要多轮来回交互,导致总体成本激增。论文 “EET: Experience‑Driven Early Termination for Cost‑Efficient Software Engineering Agents” 提出了一种轻量级、数据驱动的技术,能够显著降低这些成本,同时几乎不影响代理的成功率。

关键贡献

  • 基于经验的提前终止 (EET): 一个框架,从先前解决的问题中挖掘结构化“经验”,并在生成过程中决定是否继续迭代可能不会提升结果。
  • 跨代理适用性: 在三种不同的 SE 代理(例如基于 Codex、基于 GPT‑4、以及微调的 CodeGen 模型)上进行验证,无需重新训练模型。
  • 显著的成本节约: 在 SWE‑bench Verified 基准上实现了 19 %–55 % 的总费用降低(平均 32 %),且问题解决率下降最多仅 0.2 %。
  • 令牌级效率: 平均削减 API 调用 21 %,输入令牌 30 %,输出令牌 25 %,直接转化为更低的云服务费用。
  • 开源发布: 所有代码、提示词以及精心整理的经验数据集均公开,可立即采用并进一步研究。

方法论

  1. 收集经验:

    • 对于每个已解决的问题,系统记录结构化日志:提示序列、模型输出以及最终判定(补丁是否修复了 bug)。
    • 这些日志被抽象为 经验元组(例如 “补丁‑生成步骤 X,令牌数量 Y 很少能成功修复语言 X 的问题”)。
  2. 学习提前终止规则:

    • 使用经验元组训练轻量级分类器(如决策树),预测继续迭代的 效用
    • 分类器基于低成本特征运行,如当前已生成的令牌数、与先前成功补丁的相似度以及来自 LLM 的置信分数。
  3. 运行时集成:

    • 在新的问题解决会话中,每完成一次生成步骤,代理都会查询分类器。
    • 若分类器指示改进概率低,则会 提前终止 会话,并根据简单的质量检查接受或丢弃当前最佳补丁。
  4. 评估设置:

    • 实验在 SWE‑bench Verified 套件上进行(该套件收集了真实 GitHub 问题及其真实补丁)。
    • 评估了三类代表性代理:基线 Codex‑style 模型、GPT‑4‑style 模型以及微调的 CodeGen 模型。
    • 指标包括总费用(基于令牌使用量计算)、解决率、API 调用次数以及令牌数量。

结果与发现

指标基线启用EET改进
总成本1.00×0.68×(平均)‑32 %(范围 19‑55 %)
解决率71.3 %71.1 %‑0.2 %(可忽略)
提前终止命中11 % 的问题
API 调用100 %79 %‑21 %
输入令牌100 %70 %‑30 %
输出令牌100 %75 %‑25 %

关键要点

  • 通过提前终止无效循环实现成本节约,而不是牺牲最终补丁的质量。
  • 该方法在不同 LLM 后端上均表现一致,说明基于经验的信号与模型无关。
  • 虽然提前终止仅在约十分之一的问题中触发,但由于这些案例往往是令牌消耗最重的,累计的令牌减少仍然相当可观。

实际影响

  • 针对 DevOps 和 CI 流水线: 将 EET 集成可以降低自动代码审查机器人或 “AI‑pair‑programmer” 服务的费用,使大规模部署在财务上可行。
  • 针对提供 AI 辅助调试的 SaaS 供应商: 当后端能够保证每次请求的 token 消耗降低 ≤ 30 % 时,提供成本透明的层级(例如 “pay‑per‑issue”)会更容易实现。
  • 针对开源贡献者: 已发布的经验数据集可用于为新语言或特定领域工具(例如面向安全的补丁生成)启动早停启发式算法。
  • 针对开发者: 更快的响应时间——API 往返次数减少意味着更低的延迟,这在使用 AI 驱动的 IDE 扩展时会带来更流畅的交互体验。

限制与未来工作

  • 经验偏差: EET 依赖历史问题日志;如果训练数据偏向于某些错误模式,分类器可能会过早中止本可以解决的全新案例。
  • 早期终止信号的粒度: 当前规则集使用相对简单的特征;更丰富的语义嵌入可以捕捉更细微的线索。
  • 对大规模代码库的可扩展性: 本研究聚焦于单文件补丁;将该方法扩展到多模块重构可能需要更复杂的终止准则。
  • 未来方向: 作者提出 (1) 引入强化学习循环以持续优化终止策略,(2) 探索跨项目迁移学习以实现经验共享,(3) 在基准套件之外的实时开发者工作流中评估 EET。

作者

  • Yaoqi Guo
  • Ying Xiao
  • Jie M. Zhang
  • Mark Harman
  • Yiling Lou
  • Yang Liu
  • Zhenpeng Chen

论文信息

  • arXiv ID: 2601.05777v1
  • 分类: cs.SE
  • 出版日期: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »