[Paper] Artisan：Agentic Artifact Evaluation

发布: 2天前 (2026年2月11日 GMT+8 02:15)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10046v1

概述

Artifact 评估——检查研究论文的代码和数据是否真正复现报告的结果——已成为软件工程研究的基石。然而，所需的人工工作量限制了其只能用于少数论文。全新的 Artisan 系统展示了如何利用大型语言模型（LLM）代理自动生成可复现的脚本，将传统上劳动密集型的任务转变为可扩展、可重复的服务。

关键贡献

将再现重新定义为代码生成 – Artisan 将整个可重复性问题视为“编写一个脚本，运行后产生论文中的数值”，从而使生成的脚本能够在不依赖 LLM 的情况下被检查、执行和审计。
自动评判机制 – 一个隐藏的“oracle”在不公开真实答案的情况下评估脚本输出与预期结果的匹配，防止复制预先计算好的表格等投机取巧的做法。
Artisan‑Bench 基准 – 首个精心策划的套件（来自 23 篇软件工程论文的 60 项任务，涵盖多种语言和子领域），用于衡量自动化工件评估能力。所有任务均经过人工验证可复现。
实证验证 – Artisan 为 44/60 项任务生成了正确的再现脚本，相比强基线 LLM 代理提升了 3.14 倍，同时每项任务平均仅消耗 0.45 分钟的计算时间和约 48 分钟的实际时间。
错误发现 – 系统揭示了原论文或其工件中 20 处此前未知的错误或不一致。

方法论

问题表述 – 作者将制品评估建模为一个 脚本生成 问题：给定 PDF（或其解析后的文本）以及关联的制品仓库，LLM 必须输出一个自包含的脚本（例如 Bash 或 Python 驱动），以重现目标图表/表格。
LLM 代理设计 – Artisan 基于最先进的 LLM（如 GPT‑4‑style），并加入 工具使用循环：代理可以调用沙箱执行环境、检查日志，并迭代地改进其脚本。
评判反馈 – 每次执行后，自动评判器将脚本的输出与隐藏文件中的期望数值进行比较。评判器仅返回 通过/失败 信号以及一个高层次提示（例如 “数值不匹配”），在不泄露具体数值的前提下引导代理。
基准构建 – 作者选取了 23 篇近期软件工程论文，提取出 60 项可复现实验（涵盖不同语言、构建系统、数据集），并将每项包装为一个带有隐藏真实答案的可复现任务。
基线比较 – 一个 “普通” LLM 代理（mini‑swe‑agent）作为主要基线，它接收相同输入但缺乏迭代评判循环。

结果与发现

指标	Artisan	基线 (mini‑swe‑agent)
正确的复现脚本	44 / 60 (73 %)	14 / 60 (23 %)
每小时生成的脚本数	1.25	0.40
每个任务的平均实际耗时	≈ 48 min	≈ 150 min
新发现的错误	20	3

更高的成功率：Artisan 的迭代反馈循环显著降低了 LLM 的试错负担。
速度：即使有多个执行循环，总耗时仍保持在每任务一小时以内，使批量评估成为可能。
错误检测：系统的系统性检查能够发现隐藏的错误（例如，缺失的数据文件、超参数不匹配），这些错误往往被人工审阅者遗漏。

实际意义

会议和期刊工作流 – 期刊可以将 Artisan 集成到其 artifact‑evaluation 工作流中，自动为每篇提交生成可复现性脚本，并在人工审查之前标记出有问题的 artifact。
研究的持续集成 – 研究人员可以将 Artisan 集成到他们的 CI 流水线中，以验证代码库在每次更改后仍能复现论文，及早捕获回归。
开发者工具 – IDE 插件可以调用 Artisan 自动生成“运行我的论文”脚本，用于开源研究项目，降低实践者采用新技术的门槛。
教育用途 – 在软件工程课程中，学生可以使用 Artisan 探索已发表实验的构建方式，促进对可复现性最佳实践的更深入理解。

局限性与未来工作

Scope of artifacts – Artisan 目前处理命令行脚本和典型的构建系统；更复杂的环境（例如分布式集群、GPU 密集型深度学习流水线）仍然无法覆盖。
Reliance on LLM quality – 该方法继承了 LLM 的幻觉风险；偶尔出现的无意义命令仍需人工监督。
Hidden‑oracle assumption – 判定机制假设能够获取精确的预期输出，但并非所有论文都能提供（例如随机结果）。
Future directions 作者提出的未来方向包括将基准扩展到其他 SE 子领域（例如程序分析工具），加入更丰富的环境规范（Docker/Kubernetes），以及探索混合式 human‑in‑the‑loop 工作流以进一步提升可靠性。

作者

Doehyun Baek
Michael Pradel

论文信息

arXiv ID: 2602.10046v1
分类: cs.SE
出版日期: 2026年2月10日
PDF: 下载 PDF

[Paper] Artisan：Agentic Artifact Evaluation

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 使用大语言模型进行IoT网络未知攻击检测：一种鲁棒且数据高效的方法

[Paper] PPTAM$η$: 能源感知 CI/CD 流水线用于基于容器的应用

[Paper] Performance Antipatterns：天使还是恶魔？功耗

[Paper] 通过手动和自动代码审查推荐的质量改进研究