[Paper] 沉浸于 GitHub 宇宙:将编码代理规模化以实现精通

发布: (2026年2月10日 GMT+8 23:30)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.09892v1

概述

本文介绍了 ScaleSWE,一个全自动、沙箱化的多代理流水线,能够在大规模上收集和整理真实世界的软件工程(SWE)数据。通过协调三个专门的代理——环境设置、测试生成和问题陈述合成,作者处理了来自 5,200 个 GitHub 仓库的 600 万个 pull request,生成了公开发布的 10 万条经验证的 SWE 实例 数据集,是同类中规模最大的。作者还展示了如何利用这些数据对大语言模型(LLM)进行微调,使其成为高性能的编码助理。

关键贡献

  • ScaleSWE pipeline:一个可复现的、多代理工作流,能够自动从原始 pull‑request 历史构建端到端的编码任务(环境、测试、描述)。
  • ScaleSWE Data:10 万条高质量、已验证的软件工程实例,覆盖多种语言、库和项目规模——在数量和真实度上远超现有基准。
  • Agent‑driven data generation:证明了三个专用代理能够在无需人工干预的情况下可靠地创建正确的测试套件和连贯的问题描述。
  • Model fine‑tuning:蒸馏 71 498 条成功执行轨迹,并对 Qwen‑30B‑BA3B‑Instruct 模型进行微调,生成 ScaleSWE Agent,在 SWE‑Bench Verified 基准上解决 64 % 的任务(相较基模型提升约 3 倍)。
  • Open‑source release:数据集和管道代码将公开发布,便于社区复现和扩展该方法。

方法论

  1. Pull‑request mining – 系统爬取 GitHub,收集 6 M 个 PR,来自 5.2 k 个仓库,筛选出修改代码并包含合并提交的 PR。
  2. Three‑agent orchestration
    • EnvAgent 构建可复现的沙箱(Docker/conda),镜像仓库的依赖和运行时环境。
    • TestAgent 自动为变更的代码生成单元测试,结合静态分析、变异测试和 LLM 驱动的测试合成。
    • PromptAgent 根据提交信息、议题讨论和代码差异,构造开发者看到的简洁问题描述(“编码任务”)。
  3. Verification loop – 运行生成的测试套件针对修改后的代码;仅保留所有测试全部通过的实例,以保证功能正确性。
  4. Trajectory extraction – 对每个已验证的实例,系统记录逐步交互(提示 → 模型输出 → 测试执行),生成训练轨迹。
  5. Model fine‑tuning – 使用收集的轨迹对 Qwen‑30B‑BA3B‑Instruct 进行微调,采用标准指令微调损失并结合人类反馈的强化学习(RLHF),以优先生成正确、简洁的解答。

结果与发现

  • 数据集规模与多样性 – 10 k 条已验证实例,覆盖 30 多种编程语言,任务的文件数中位数为 5,且具有真实的依赖图。
  • 基线 vs. 微调模型 – 基础 Qwen‑30B 模型解决了约 22 % 的 SWE‑Bench Verified 任务;在 ScaleSWE 轨迹上微调后,ScaleSWE Agent 达到了 64 % 的解题率,性能接近提升三倍。
  • 消融实验 – 移除任意一个代理会导致验证成功率下降超过 30 %,证明每个组件对高质量数据都是必不可少的。
  • 人工评估 – 独立开发者在 87 % 的案例中评价生成的问题陈述为“清晰且真实”,表明合成提示可用于训练和基准测试。

实际意义

  • 更好的编码助手 – 开发者现在可以集成一个在真实的拉取请求场景上训练的模型,从而提供遵循项目约定、依赖约束和测试驱动开发实践的建议。
  • 加速工具构建 – 构建自动代码审查、错误修复生成或 CI 助手工具的公司可以利用 ScaleSWE 数据集来快速启动模型,无需昂贵的手动数据整理。
  • 持续数据流水线 – 多代理工作流可以安排在最新的 PR 流上运行,生成一个随开源生态系统演进的 活跃 数据集——有助于让大型语言模型及时跟进新出现的库和框架。
  • 基准测试与研究 – 研究人员获得了一个大规模、经过验证的基准,用于评估大型语言模型在真实软件工程任务上的表现,突破了当前文献中占主导的合成或玩具示例。

限制与未来工作

  • 语言偏差 – 虽然数据集覆盖了许多语言,但大多数实例仍然是 Python、JavaScript 和 Java,反映了 GitHub 的语言分布;较少使用的语言仍然代表性不足。
  • 测试质量上限 – 自动化测试生成虽有效,但可能遗漏人类编写的测试能够捕获的边缘案例错误,可能导致感知的解决率被高估。
  • 计算成本 – 在数百万个 PR 上运行沙箱代理需要大量云资源,这可能限制较小实验室的可重复性。
  • 未来方向 – 作者计划 (1) 引入更复杂的静态分析以提升测试覆盖率,(2) 将流水线扩展至处理多模块和微服务架构,(3) 探索主动学习循环,使模型失败触发有针对性的数据生成。

作者

  • Jiale Zhao
  • Guoxin Chen
  • Fanzhe Meng
  • Minghao Li
  • Jie Chen
  • Hui Xu
  • Yongshuai Sun
  • Xin Zhao
  • Ruihua Song
  • Yuan Zhang
  • Peng Wang
  • Cheng Chen
  • Jirong Wen
  • Kai Jia

论文信息

  • arXiv ID: 2602.09892v1
  • 分类: cs.SE
  • 出版日期: 2026年2月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »