[Paper] 基准测试里有什么?SWE-Bench 在自动化程序修复中的案例

发布: (2026年2月4日 GMT+8 19:19)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.04449v1

概览

本文首次系统性审计了 SWE‑Bench,这一实际使用流行开源项目中真实 Python 缺陷的自动程序修复(APR)事实基准。通过剖析两个公开排行榜——SWE‑Bench LiteSWE‑Bench Verified——作者揭示了谁在构建表现最好的修复工具、他们依赖哪些语言模型,以及这些解决方案是开放的还是专有的。研究结果显示出强烈的工业倾向、Claude 系列模型几乎垄断的局面,以及令人惊讶的学术竞争力。

关键贡献

  • 综合排行榜分析 – 检查了 Lite 上的 79 条条目和 Verified 上的 133 条条目,涵盖提交者身份、公司规模和模型使用情况。
  • 行业主导地位量化 – 显示小型初创公司和大型上市公司共同贡献了大多数高分条目。
  • LLM 生态图绘制 – 确认 Claude 4 Sonnet 是当前 SWE‑Bench 上 APR 的最先进模型,专有模型远超开源替代品。
  • 开源 vs 专有权衡 – 强调虽然学术和开源提交仍具竞争力,但它们很少登上排行榜首位。
  • 透明度建议 – 为基准设计者和 APR 社区提供具体建议,以鼓励更具多样性和可重复性的研究。

方法论

  1. 数据收集 – 从两个 SWE‑Bench 排行榜抓取所有公开提交,提取提交者姓名、所属机构、报告的 LLM 以及代码是否在开源许可证下发布等元数据。
  2. 分类 – 将提交者划分为“工业”(进一步细分为小公司、大型上市公司和初创企业)和“学术”。LLM 则分为专有(例如 Claude、GPT‑4)或开源(例如 LLaMA、StarCoder)。
  3. 统计分析 – 计算各类别的频率分布、中位数分数以及基于排名的性能差距。
  4. 定性审查 – 检查 README 文件和随附论文,以评估方法的开放程度(例如模型权重、推理流水线的可用性)。

所有步骤均使用 Python Notebook 完成,并通过 seaborn/matplotlib 可视化,保持流水线可复现,以便未来审计。

结果与发现

  • 行业领跑 – Lite 中 68 % 和 Verified 中 71 % 的提交来自公司;其中,规模 ≤ 200 名员工的小公司约占前十名条目的 ~45 %。
  • Claude 4 Sonnet 主导 – 它出现在 57 % 的所有提交中,并拥有最高的平均修复得分(Lite 为 0.73,Verified 为 0.68)。
  • 开源 LLM 落后 – 表现最好的开源模型(StarCoder)平均得分约为 0.55,与 Claude 相差 15‑20 %。
  • 学术参赛作品仍具竞争力 – 最高排名的学术提交(使用 GPT‑4 并配自定义提示)在 Verified 中位列第 4,表明巧妙的工程实现可以弥补资源差距。
  • 透明度参差不齐 – 仅有 22 % 的参赛作品提供完整可复现的流水线;其余依赖专有 API 或未公开的提示。

Practical Implications

  • 工具构建者 应考虑集成 Claude 系列 API,以获得最先进的修复性能,但必须权衡成本和供应商锁定。
  • 开源倡导者 可以专注于改进提示工程、检索增强生成或混合流水线,以在不支付专有模型费用的情况下缩小性能差距。
  • 基准设计者 可能会将“开放性”作为次要指标,鼓励提交者公开提示、模型检查点和评估脚本。
  • 产品团队 可以使用论文的分类法,将自己的 APR 流水线与行业基准进行对标,识别是竞争原始性能还是透明性/可重复性。
  • 投资者和招聘经理 可以获得关于 APR 人才集中分布的基于数据的视图——主要集中在中小型 AI 初创公司和大型科技企业——从而制定招聘策略。

限制与未来工作

  • 分析仅限于公开可见的排行榜条目;私有或内部的 APR 实验未被计入。
  • 性能指标绑定于 SWE‑Bench 的特定评分函数,可能无法捕捉修复质量的所有维度(例如运行时、可维护性)。
  • 研究未评估提示工程深度的影响,这可能是专有 LLM 成功背后的混杂因素。
  • 未来工作可以将审计扩展到其他语言(例如 Java、JavaScript),纳入长期趋势,并提出用于 APR 基准的标准化“开放度评分”。

作者

  • Matias Martinez
  • Xavier Franch

论文信息

  • arXiv ID: 2602.04449v1
  • 分类: cs.SE
  • 出版日期: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »