[Paper] BUILD-AND-FIND:一种面向工作量感知的评估代理管理代码库的协议
发布: (2026年5月7日 GMT+8 20:35)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.06136v1
Overview
论文 BUILD‑AND‑FIND 提出了一个用于代码生成代理的新评估协议,超越了“程序是否能正确运行?”的范畴——它询问下游代理是否能够 understand 并 reuse 上游代理创建的代码仓库。换句话说,这项工作将生成的代码库视为一种交流产物,并衡量第二个代理恢复原始设计意图所需的工作量。
关键贡献
- 考虑工作量的评估协议 – 引入 builder(构建者)和 finder(发现者)角色,将代码创建与意图恢复分离,能够同时衡量正确性和可检查性。
- 多维度指标 – 定义恢复准确率、可重复性、实现覆盖率以及 检查工作量(例如检查的代码行数、花费的时间)。
- 对照条件 – 包含 “仅提问” 与 “仅规范” 基线,以孤立生成产物本身的价值。
- 审计机制 – 检查 finder 的正确答案是否真的有仓库中的证据支持,以区分运气猜测和真正的理解。
- 开放基准套件 – 发布一个高优先级任务集合,其中行为正确性已基本饱和,使检查工作量成为各代理之间的主要区分因素。
方法论
- 任务定义 – 每个基准任务都有一个隐藏的 规范(预期行为和设计选择)。
- 构建阶段 – 一个 AI 代理(构建者)接收隐藏的规范并必须生成完整的仓库(源文件、README、测试等)。
- 查找阶段 – 第二个代理(查找者)仅看到生成的仓库和一个 规范追踪的多项选择问卷,该问卷询问原始设计决策(例如,“X 应该使用哪种算法?”)。
- 指标收集
- 恢复准确率:正确回答的问题比例。
- 可重复性:同一查找者多次运行时答案的一致性。
- 实现覆盖率:规范在代码中实际体现的比例。
- 检查工作量:通过查找者在回答每个问题前必须阅读的代码量(行数、标记数或实际时间)来衡量。
- 控制与审计
- 仅问卷:查找者仅获得问卷(无代码)。
- 仅规范:查找者仅获得隐藏的规范(无代码)。
- 审计:验证正确答案能够追溯到具体的工件(例如,注释、函数名、测试用例)。
该协议仅在准确率和可重复性通过预定义门槛时,才将工作量视为有意义,防止低工作量仅因随机猜测产生。
结果与发现
- 在已发布的高先验任务包中,恢复准确率已接近上限(≈ 95 %+),证实构建代理能够嵌入预期设计。
- 检查工作量在不同的查找代理之间差异很大:有些模型只扫描几十行就能定位所需信息,而有些则必须阅读整个代码库。
- 仅提问基线得分显著降低,证明生成的产物在规范之外具有相当的解释价值。
- 审计显示,**≈ 88 %**的正确答案都有代码中的明确证据支持(例如命名约定、注释、测试断言),表明构建者并非仅通过嵌入隐藏线索来“作弊”。
- 出现了查找器特定的效应:经过微调的检索模型的检查工作量比通用大语言模型低至 30 %,即使两者的准确率相同。
实际影响
- AI 增强开发的工具链 – 构建代码生成助手的公司可以使用 BUILD‑AND‑FIND 来评估不仅代码是否可运行,还要评估它是否对其他代理(或人类开发者)可维护。
- 持续集成流水线 – 可以评估自动审查器发现 AI 生成仓库中的回归或安全问题的速度,从而实现更高效的 CI 检查。
- 代理协作框架 – Builder/Finder 的划分对应现实工作流,即一个 AI 起草库,另一个进行审计或扩展;该协议提供了量化比较协作策略的方法。
- 文档生成 – 较低的检查工作量与更清晰的代码内文档和结构相关,这表明该协议可以作为“自解释”代码的代理指标。
- 招聘与模型选择 – 团队可以选择在速度(工作量)与可靠性之间提供最佳平衡的 Finder 模型,以优化快速的代码库上手。
限制与未来工作
- 任务多样性 – 当前基准侧重于高优先级、明确规定的任务;更复杂、模糊的领域(例如遗留代码重构)仍未测试。
- 人类基线 – 研究未将寻找代理与熟练的人类开发者进行比较,因而仍未解答 AI 工作量相对于人工检查时间的对比问题。
- 工作量测量粒度 – 仅统计行数或标记数是对认知工作量的粗略代理;未来工作可以加入眼动追踪或交互日志,以获得更细致的粒度。
- 可扩展性 – 运行完整协议(构建者 + 多次寻找者运行)计算成本高昂;需要更简化的变体以用于大规模模型评估。
作者计划扩展任务套件,加入人类参与者,并在后续发布中探索更丰富的工作量度量指标。
作者
- Jhen-Ke Lin
论文信息
- arXiv ID: 2605.06136v1
- 分类: cs.SE, cs.AI
- 出版日期: 2026年5月7日
- PDF: Download PDF