[Paper] SWE-rebench V2：大规模语言无关 SWE 任务集合

发布: 3天前 (2026年2月27日 GMT+8 18:06)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23866v1

概览

本文介绍了 SWE‑rebench V2，这是一套全新的、语言无关的流水线，能够自动从开源代码库中收集真实的软体工程（SWE）任务，并将其转化为可直接运行的强化学习（RL）环境。通过将任务数量（数万）和编程语言种类（20 +）同时规模化，作者旨在为 AI 驱动的编码助手开发者提供前所未有的更丰富的训练场景。

关键贡献

自动化、语言无关的收集流水线，可从任意 GitHub 仓库提取安装脚本、测试套件和问题描述。
基于 LLM 的过滤，使用评审集合剔除噪声或不可解的实例，并通过人工标注的基准进行验证。
大规模数据集：
- 超过 3.2 万个高质量任务，配有可复现的 Docker 镜像，覆盖 20 种语言和 3.6 千个仓库。
- 超过 12 万个额外任务，提供安装说明和元数据（无预构建镜像）。
开源发布 数据集、收集代码和执行基础设施，使任何人都能复现或扩展该基准。
诊断性评估 覆盖五种语言和七种流行 LLM，揭示常见干扰因素，如过于严格的测试或描述模糊。

方法论

Repository Mining – 管道在 GitHub 上爬取最近的 pull‑request（PR）合并，这些合并包含明确的描述和关联的测试套件。
Interactive Setup Agent – 对每个候选仓库，轻量级代理尝试安装项目并运行其测试，自动生成 Dockerfile 和脚本，以捕获精确的环境（操作系统、依赖、构建工具）。
LLM Judging Ensemble – 多个大语言模型被提示评估提取的任务是否表述良好（例如，测试是否真正验证了 PR 的更改？）。它们的投票被汇总；只有获得共识的任务才进入最终集合。
Human Validation – 对过滤后的任务子集进行人工交叉检查，确保 LLM 判定没有漂移，并与现有的 SWE‑bench 注释对齐。
Metadata Enrichment – 为每个任务标注语言、仓库、测试通过/失败状态，以及已知问题的标记（例如，易失性测试、模糊的问题陈述）。
Dataset Packaging – 高质量任务随预构建的 Docker 镜像一起发布；规模更大、较轻的集合仅包含安装脚本和元数据，以便在运行时构建镜像。

结果与发现

规模: 该流水线生成了 32 k+ 完全可复现的任务（≈ 是之前 SWE‑bench 发行版规模的 10 倍），以及 120 k+ “轻量”任务。
语言多样性: 任务覆盖 20 种编程语言，从主流语言（Python、JavaScript、Java）到小众语言（Rust、Haskell、Elixir）。
质量: 人工验证抽样显示，≈ 92 % 的过滤后任务可解且拥有有意义的测试套件，质量与手工策划的基准相当或更佳。
模型诊断: 在代表性子集上评估时，最先进的 LLM（如 GPT‑4、Claude‑2）仍在许多任务上表现不足，尤其是那些 测试过于严格 或 PR 描述不完整 的任务，这凸显出通过更大、更丰富的训练数据可以弥补的不足。

实际影响

更丰富的代码生成代理训练数据 – 构建基于强化学习的代码助手的开发者现在可以在一个反映真实项目异构性的数据集上进行训练，可能提升跨语言的泛化能力。
跨生态系统基准测试 – 语言无关的特性使团队能够在之前忽视的语言上评估模型，揭示潜在的弱点。
更快的原型开发 – 预构建的 Docker 镜像意味着可以在几秒钟内启动任务，显著降低创建自定义强化学习环境的工程开销。
更好的测试驱动评估 – 通过详细的元数据标记不稳定或过于严格的测试，研究者可以设计更稳健的评估协议，关注真实的解决问题能力，而非测试技巧。
开源生态系统 – 通过发布该流水线，其他团队可以将收集扩展到私有代码库或新兴语言，促进社区驱动的基准生态系统。

限制与未来工作

依赖现有测试套件 – 缺乏完整测试的项目代表性不足，这可能导致模型偏向于经过充分测试的代码模式。
LLM 过滤偏差 – 集成评判器继承底层 LLM 的偏见；罕见或非常规任务可能被错误地剔除。
不稳定测试仍然存在 – 尽管有元数据标记，仍有部分任务包含非确定性的测试行为，可能会干扰强化学习训练。
作者提出的未来方向 包括：
1. 融入静态分析以补充缺失的测试。
2. 在受控许可下，将流水线扩展至私有企业代码库。
3. 探索半监督方法，从噪声候选中恢复高质量任务。

作者

Ibragim Badertdinov
Maksim Nekrashevich
Anton Shevtsov
Alexander Golubev

论文信息

arXiv ID: 2602.23866v1
Categories: cs.SE, cs.CL
Published: 2026年2月27日
PDF: 下载 PDF

[Paper] SWE-rebench V2：大规模语言无关 SWE 任务集合

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] LLM 能从自己的话语中受益吗？

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

[Paper] MT-PingEval：评估多轮协作中的私有信息游戏