[Paper] BUILD-AND-FIND:一种面向工作量感知的评估代理管理代码库的协议

发布: (2026年5月7日 GMT+8 20:35)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.06136v1

Overview

论文 BUILD‑AND‑FIND 提出了一个用于代码生成代理的新评估协议,超越了“程序是否能正确运行?”的范畴——它询问下游代理是否能够 understandreuse 上游代理创建的代码仓库。换句话说,这项工作将生成的代码库视为一种交流产物,并衡量第二个代理恢复原始设计意图所需的工作量。

关键贡献

  • 考虑工作量的评估协议 – 引入 builder(构建者)和 finder(发现者)角色,将代码创建与意图恢复分离,能够同时衡量正确性和可检查性。
  • 多维度指标 – 定义恢复准确率、可重复性、实现覆盖率以及 检查工作量(例如检查的代码行数、花费的时间)。
  • 对照条件 – 包含 “仅提问” 与 “仅规范” 基线,以孤立生成产物本身的价值。
  • 审计机制 – 检查 finder 的正确答案是否真的有仓库中的证据支持,以区分运气猜测和真正的理解。
  • 开放基准套件 – 发布一个高优先级任务集合,其中行为正确性已基本饱和,使检查工作量成为各代理之间的主要区分因素。

方法论

  1. 任务定义 – 每个基准任务都有一个隐藏的 规范(预期行为和设计选择)。
  2. 构建阶段 – 一个 AI 代理(构建者)接收隐藏的规范并必须生成完整的仓库(源文件、README、测试等)。
  3. 查找阶段 – 第二个代理(查找者)仅看到生成的仓库和一个 规范追踪的多项选择问卷,该问卷询问原始设计决策(例如,“X 应该使用哪种算法?”)。
  4. 指标收集
    • 恢复准确率:正确回答的问题比例。
    • 可重复性:同一查找者多次运行时答案的一致性。
    • 实现覆盖率:规范在代码中实际体现的比例。
    • 检查工作量:通过查找者在回答每个问题前必须阅读的代码量(行数、标记数或实际时间)来衡量。
  5. 控制与审计
    • 仅问卷:查找者仅获得问卷(无代码)。
    • 仅规范:查找者仅获得隐藏的规范(无代码)。
    • 审计:验证正确答案能够追溯到具体的工件(例如,注释、函数名、测试用例)。

该协议仅在准确率和可重复性通过预定义门槛时,才将工作量视为有意义,防止低工作量仅因随机猜测产生。

结果与发现

  • 在已发布的高先验任务包中,恢复准确率已接近上限(≈ 95 %+),证实构建代理能够嵌入预期设计。
  • 检查工作量在不同的查找代理之间差异很大:有些模型只扫描几十行就能定位所需信息,而有些则必须阅读整个代码库。
  • 仅提问基线得分显著降低,证明生成的产物在规范之外具有相当的解释价值。
  • 审计显示,**≈ 88 %**的正确答案都有代码中的明确证据支持(例如命名约定、注释、测试断言),表明构建者并非仅通过嵌入隐藏线索来“作弊”。
  • 出现了查找器特定的效应:经过微调的检索模型的检查工作量比通用大语言模型低至 30 %,即使两者的准确率相同。

实际影响

  • AI 增强开发的工具链 – 构建代码生成助手的公司可以使用 BUILD‑AND‑FIND 来评估不仅代码是否可运行,还要评估它是否对其他代理(或人类开发者)可维护
  • 持续集成流水线 – 可以评估自动审查器发现 AI 生成仓库中的回归或安全问题的速度,从而实现更高效的 CI 检查。
  • 代理协作框架 – Builder/Finder 的划分对应现实工作流,即一个 AI 起草库,另一个进行审计或扩展;该协议提供了量化比较协作策略的方法。
  • 文档生成 – 较低的检查工作量与更清晰的代码内文档和结构相关,这表明该协议可以作为“自解释”代码的代理指标。
  • 招聘与模型选择 – 团队可以选择在速度(工作量)与可靠性之间提供最佳平衡的 Finder 模型,以优化快速的代码库上手。

限制与未来工作

  • 任务多样性 – 当前基准侧重于高优先级、明确规定的任务;更复杂、模糊的领域(例如遗留代码重构)仍未测试。
  • 人类基线 – 研究未将寻找代理与熟练的人类开发者进行比较,因而仍未解答 AI 工作量相对于人工检查时间的对比问题。
  • 工作量测量粒度 – 仅统计行数或标记数是对认知工作量的粗略代理;未来工作可以加入眼动追踪或交互日志,以获得更细致的粒度。
  • 可扩展性 – 运行完整协议(构建者 + 多次寻找者运行)计算成本高昂;需要更简化的变体以用于大规模模型评估。

作者计划扩展任务套件,加入人类参与者,并在后续发布中探索更丰富的工作量度量指标。

作者

  • Jhen-Ke Lin

论文信息

  • arXiv ID: 2605.06136v1
  • 分类: cs.SE, cs.AI
  • 出版日期: 2026年5月7日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »