[Paper] Artisan:Agentic Artifact Evaluation

发布: (2026年2月11日 GMT+8 02:15)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.10046v1

概述

Artifact 评估——检查研究论文的代码和数据是否真正复现报告的结果——已成为软件工程研究的基石。然而,所需的人工工作量限制了其只能用于少数论文。全新的 Artisan 系统展示了如何利用大型语言模型(LLM)代理自动生成可复现的脚本,将传统上劳动密集型的任务转变为可扩展、可重复的服务。

关键贡献

  • 将再现重新定义为代码生成 – Artisan 将整个可重复性问题视为“编写一个脚本,运行后产生论文中的数值”,从而使生成的脚本能够在不依赖 LLM 的情况下被检查、执行和审计。
  • 自动评判机制 – 一个隐藏的“oracle”在不公开真实答案的情况下评估脚本输出与预期结果的匹配,防止复制预先计算好的表格等投机取巧的做法。
  • Artisan‑Bench 基准 – 首个精心策划的套件(来自 23 篇软件工程论文的 60 项任务,涵盖多种语言和子领域),用于衡量自动化工件评估能力。所有任务均经过人工验证可复现。
  • 实证验证 – Artisan 为 44/60 项任务生成了正确的再现脚本,相比强基线 LLM 代理提升了 3.14 倍,同时每项任务平均仅消耗 0.45 分钟的计算时间和约 48 分钟的实际时间。
  • 错误发现 – 系统揭示了原论文或其工件中 20 处此前未知的错误或不一致。

方法论

  1. 问题表述 – 作者将制品评估建模为一个 脚本生成 问题:给定 PDF(或其解析后的文本)以及关联的制品仓库,LLM 必须输出一个自包含的脚本(例如 Bash 或 Python 驱动),以重现目标图表/表格。

  2. LLM 代理设计 – Artisan 基于最先进的 LLM(如 GPT‑4‑style),并加入 工具使用循环:代理可以调用沙箱执行环境、检查日志,并迭代地改进其脚本。

  3. 评判反馈 – 每次执行后,自动评判器将脚本的输出与隐藏文件中的期望数值进行比较。评判器仅返回 通过/失败 信号以及一个高层次提示(例如 “数值不匹配”),在不泄露具体数值的前提下引导代理。

  4. 基准构建 – 作者选取了 23 篇近期软件工程论文,提取出 60 项可复现实验(涵盖不同语言、构建系统、数据集),并将每项包装为一个带有隐藏真实答案的可复现任务。

  5. 基线比较 – 一个 “普通” LLM 代理(mini‑swe‑agent)作为主要基线,它接收相同输入但缺乏迭代评判循环。

结果与发现

指标Artisan基线 (mini‑swe‑agent)
正确的复现脚本44 / 60 (73 %)14 / 60 (23 %)
每小时生成的脚本数1.250.40
每个任务的平均实际耗时≈ 48 min≈ 150 min
新发现的错误203
  • 更高的成功率:Artisan 的迭代反馈循环显著降低了 LLM 的试错负担。
  • 速度:即使有多个执行循环,总耗时仍保持在每任务一小时以内,使批量评估成为可能。
  • 错误检测:系统的系统性检查能够发现隐藏的错误(例如,缺失的数据文件、超参数不匹配),这些错误往往被人工审阅者遗漏。

实际意义

  • 会议和期刊工作流 – 期刊可以将 Artisan 集成到其 artifact‑evaluation 工作流中,自动为每篇提交生成可复现性脚本,并在人工审查之前标记出有问题的 artifact。
  • 研究的持续集成 – 研究人员可以将 Artisan 集成到他们的 CI 流水线中,以验证代码库在每次更改后仍能复现论文,及早捕获回归。
  • 开发者工具 – IDE 插件可以调用 Artisan 自动生成“运行我的论文”脚本,用于开源研究项目,降低实践者采用新技术的门槛。
  • 教育用途 – 在软件工程课程中,学生可以使用 Artisan 探索已发表实验的构建方式,促进对可复现性最佳实践的更深入理解。

局限性与未来工作

  • Scope of artifacts – Artisan 目前处理命令行脚本和典型的构建系统;更复杂的环境(例如分布式集群、GPU 密集型深度学习流水线)仍然无法覆盖。
  • Reliance on LLM quality – 该方法继承了 LLM 的幻觉风险;偶尔出现的无意义命令仍需人工监督。
  • Hidden‑oracle assumption – 判定机制假设能够获取精确的预期输出,但并非所有论文都能提供(例如随机结果)。
  • Future directions 作者提出的未来方向包括将基准扩展到其他 SE 子领域(例如程序分析工具),加入更丰富的环境规范(Docker/Kubernetes),以及探索混合式 human‑in‑the‑loop 工作流以进一步提升可靠性。

作者

  • Doehyun Baek
  • Michael Pradel

论文信息

  • arXiv ID: 2602.10046v1
  • 分类: cs.SE
  • 出版日期: 2026年2月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »