[Paper] BUILD-AND-FIND：一种面向工作量感知的评估代理管理代码库的协议

发布: 4天前 (2026年5月7日 GMT+8 20:35)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06136v1

Overview

论文 BUILD‑AND‑FIND 提出了一个用于代码生成代理的新评估协议，超越了“程序是否能正确运行？”的范畴——它询问下游代理是否能够 understand 并 reuse 上游代理创建的代码仓库。换句话说，这项工作将生成的代码库视为一种交流产物，并衡量第二个代理恢复原始设计意图所需的工作量。

关键贡献

考虑工作量的评估协议 – 引入 builder（构建者）和 finder（发现者）角色，将代码创建与意图恢复分离，能够同时衡量正确性和可检查性。
多维度指标 – 定义恢复准确率、可重复性、实现覆盖率以及 检查工作量（例如检查的代码行数、花费的时间）。
对照条件 – 包含 “仅提问” 与 “仅规范” 基线，以孤立生成产物本身的价值。
审计机制 – 检查 finder 的正确答案是否真的有仓库中的证据支持，以区分运气猜测和真正的理解。
开放基准套件 – 发布一个高优先级任务集合，其中行为正确性已基本饱和，使检查工作量成为各代理之间的主要区分因素。

方法论

任务定义 – 每个基准任务都有一个隐藏的规范（预期行为和设计选择）。
构建阶段 – 一个 AI 代理（构建者）接收隐藏的规范并必须生成完整的仓库（源文件、README、测试等）。
查找阶段 – 第二个代理（查找者）仅看到生成的仓库和一个 规范追踪的多项选择问卷，该问卷询问原始设计决策（例如，“X 应该使用哪种算法？”）。
指标收集
- 恢复准确率：正确回答的问题比例。
- 可重复性：同一查找者多次运行时答案的一致性。
- 实现覆盖率：规范在代码中实际体现的比例。
- 检查工作量：通过查找者在回答每个问题前必须阅读的代码量（行数、标记数或实际时间）来衡量。
控制与审计
- 仅问卷：查找者仅获得问卷（无代码）。
- 仅规范：查找者仅获得隐藏的规范（无代码）。
- 审计：验证正确答案能够追溯到具体的工件（例如，注释、函数名、测试用例）。

该协议仅在准确率和可重复性通过预定义门槛时，才将工作量视为有意义，防止低工作量仅因随机猜测产生。

结果与发现

在已发布的高先验任务包中，恢复准确率已接近上限（≈ 95 %+），证实构建代理能够嵌入预期设计。
检查工作量在不同的查找代理之间差异很大：有些模型只扫描几十行就能定位所需信息，而有些则必须阅读整个代码库。
仅提问基线得分显著降低，证明生成的产物在规范之外具有相当的解释价值。
审计显示，**≈ 88 %**的正确答案都有代码中的明确证据支持（例如命名约定、注释、测试断言），表明构建者并非仅通过嵌入隐藏线索来“作弊”。
出现了查找器特定的效应：经过微调的检索模型的检查工作量比通用大语言模型低至 30 %，即使两者的准确率相同。

实际影响

AI 增强开发的工具链 – 构建代码生成助手的公司可以使用 BUILD‑AND‑FIND 来评估不仅代码是否可运行，还要评估它是否对其他代理（或人类开发者）可维护。
持续集成流水线 – 可以评估自动审查器发现 AI 生成仓库中的回归或安全问题的速度，从而实现更高效的 CI 检查。
代理协作框架 – Builder/Finder 的划分对应现实工作流，即一个 AI 起草库，另一个进行审计或扩展；该协议提供了量化比较协作策略的方法。
文档生成 – 较低的检查工作量与更清晰的代码内文档和结构相关，这表明该协议可以作为“自解释”代码的代理指标。
招聘与模型选择 – 团队可以选择在速度（工作量）与可靠性之间提供最佳平衡的 Finder 模型，以优化快速的代码库上手。

限制与未来工作

任务多样性 – 当前基准侧重于高优先级、明确规定的任务；更复杂、模糊的领域（例如遗留代码重构）仍未测试。
人类基线 – 研究未将寻找代理与熟练的人类开发者进行比较，因而仍未解答 AI 工作量相对于人工检查时间的对比问题。
工作量测量粒度 – 仅统计行数或标记数是对认知工作量的粗略代理；未来工作可以加入眼动追踪或交互日志，以获得更细致的粒度。
可扩展性 – 运行完整协议（构建者 + 多次寻找者运行）计算成本高昂；需要更简化的变体以用于大规模模型评估。

作者计划扩展任务套件，加入人类参与者，并在后续发布中探索更丰富的工作量度量指标。

作者

Jhen-Ke Lin

论文信息

arXiv ID: 2605.06136v1
分类: cs.SE, cs.AI
出版日期: 2026年5月7日
PDF: Download PDF

[Paper] BUILD-AND-FIND：一种面向工作量感知的评估代理管理代码库的协议

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择