【论文】Agentic Rubrics 作为 SWE 代理的上下文验证器

发布: 1个月前 (2026年1月8日 GMT+8 02:38)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.04171v1

概述

本文介绍了 Agentic Rubrics，这是一种在不运行代码的情况下验证软件工程（SWE）代码生成代理的新方法。通过让“专家” LLM 探索目标代码库并生成上下文感知的检查清单，系统可以快速且大规模地为候选补丁打分，提供相较于现有验证技巧（如测试执行或启发式分类器）的可衡量提升。

Agentic Rubrics 框架：一个由 LLM 驱动的流水线，创建特定仓库的评分标准，并使用该标准在不执行补丁的情况下评估补丁。
可扩展验证：在 SWE‑Bench Verified 基准上实现了强大的测试时扩展（TTS）结果，同时避免了昂贵的环境设置。
实证提升：相较于最强基线提升 +3.5 pp，在 Qwen3‑Coder‑30B‑A3B 上达到 54.2 %，在 Qwen3‑32B 上达到 40.6 %。
可解释性：评分标准分数与真实测试结果相关，并揭示了测试未捕获的失败模式，提供更丰富的诊断反馈。
消融洞察：证明“agentic”上下文收集步骤对于生成明确、针对代码库的标准至关重要。

上下文探索 – 让一位专家 LLM（即“rubric‑author”）浏览目标代码库：阅读 README、现有代码、构建脚本以及任何文档。它提取该模块的语义意图，以便后续评估。
评分标准生成 – 基于上述探索，代理生成一份 检查清单，列出具体、可验证的属性（例如 “函数必须保持现有 API 签名”、 “不新增 os 的导入”、 “保持向后兼容的返回类型”）。检查清单的表述刻意设计为机器可检查（如通过静态分析或简单模式匹配）。
补丁打分 – 当 SWE 代理生成候选补丁后，自动应用评分标准。每一条标准产生二元（或分级）得分；所有得分的汇总即为最终的验证信号。
并行测试时间扩展（TTS） – 评分标准评估在大量补丁上并行执行，规避了启动测试环境的串行瓶颈。
评估 – 作者在 SWE‑Bench Verified 上对该流水线进行基准测试，分别与 (a) 原始测试执行、(b) 启发式补丁分类器、以及 (c) 先前仅使用静态分析的基线进行比较。

模型	基线 Pass@1*	主动 Rubrics Pass@1
Qwen3‑Coder‑30B‑A3B	50.7 %	54.2 %
Qwen3‑32B	37.1 %	40.6 %

*基线指论文比较集合中最强的非 Rubric 方法。

更快的 CI 流水线 – 团队可以将 Agentic Rubrics 接入持续集成，立即获得 AI 生成补丁的“合理性检查”分数，仅对得分最高的候选项进行昂贵的测试运行。
降低基础设施成本 – 无需为每个补丁启动容器、模拟服务或配置数据库，这对拥有庞大单体仓库或带有繁重构建步骤的遗留代码库尤为有价值。
提升开发者信任 – 该评分标准的人类可读检查清单为开发者提供了补丁被接受或拒绝的明确理由，简化了 AI 与人工审阅者之间的交接。
安全与合规 – 通过将组织特定的政策（例如“禁止新建网络套接字”“必须使用批准的日志库”）编码到评分标准中，企业可以自动执行合规性。
可扩展到其他领域 – 同样的“agentic 上下文 → 评分标准 → 分数”流水线可以用于数据管道生成、基础设施即代码，甚至 LLM 驱动的文档更新。

底线：Agentic Rubrics 为 AI 辅助的软件开发提供了务实、可解释且成本效益高的验证层，作为传统测试驱动验证在现代 DevOps 工作流中的有价值补充。