[Paper] SWE-Fuse:通过无问题轨迹学习和熵感知的 RLVR 训练赋能软件代理

发布: (2026年3月9日 GMT+8 11:47)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.07927v1

Overview

论文 SWE‑Fuse 解决了一个出乎意料常见的障碍,即针对大型语言模型(LLM)驱动的软件工程代理:许多真实世界的问题报告噪声大、描述模糊,甚至与实际修复问题的代码更改完全不匹配。通过让代理在误导性问题文本有帮助时 忽略 它,在可靠时 依赖 它,SWE‑Fuse 在具有挑战性的 SWE‑bench Verified 基准上显著提升了自动化 bug 修复的成功率。

关键贡献

  • Issue‑description‑aware training frameworkissue‑guidedissue‑free 示例相结合,使模型能够学习在何时信任错误报告,何时依赖纯代码层面的推理。
  • Issue‑free‑driven trajectory learning 模块在不依赖错误描述的情况下构建逐步调试的 “轨迹”,从而降低噪声输入的影响。
  • Entropy‑aware RLVR (Reinforcement Learning with Value‑based Regularization) training 动态根据模型预测的熵值调整裁剪阈值,鼓励在不确定样本上进行探索,在有信心的样本上保持稳定。
  • State‑of‑the‑art empirical gains:相较于最强基线,求解率分别提升了 43 %(8B)和 60 %(32B),并在结合测试时扩展(TTS)后进一步提升。

方法论

  1. Data Fusion – 作者从两个训练数据池开始:

    • Issue‑guided 样本,包含原始 bug 报告(通常噪声较多)。
    • Issue‑free 样本,去除描述,仅保留代码上下文和正确的修复。
  2. Trajectory Learning – 对于 issue‑free 样本,他们生成一系列中间调试步骤(例如,“运行测试 → 定位失败的测试 → 检查堆栈跟踪 → 应用补丁”)。模型被训练去复现该轨迹,学习一种不依赖文本 issue 线索的程序化调试思维方式。

  3. Entropy‑aware RLVR – 在 RL‑style fine‑tuning 期间,损失裁剪因子由模型输出的熵调节:

    • 高熵 → 裁剪更宽松 → 代理可以探索多样化的动作(当 issue 描述模糊时有用)。
    • 低熵 → 裁剪更严格 → 保留模型的自信预测,防止不稳定的更新。
  4. Training Loop – 两个模块交替进行:模型在学习 issue‑free 轨迹和 issue‑guided 示例之间交替,并在整个过程中应用 entropy‑aware RLVR 损失。

  5. Evaluation – 在 SWE‑bench Verified 上进行性能评估,该基准包含真实 GitHub issue 并已知真实修复。作者还测试了一个 test‑time scaling (TTS) 包装器,运行多个模型实例并聚合它们的输出。

结果与发现

模型基线求解率SWE‑Fuse 求解率Δ(绝对值)
8B LLM~12 %49.8 %(使用 TTS)+37.8 %
32B LLM~15 %65.2 %(使用 TTS)+50.2 %
  • 不使用 TTS 时,SWE‑Fuse 已经单独超越了之前最佳的 8B/32B 基线,提升分别为 43 %60 %
  • 熵感知裁剪是稳定性的主要驱动因素:相较于固定裁剪的 RLVR 基线,训练方差下降约 30 %。
  • 消融实验表明,去除无问题轨迹模块或熵感知组件任意一个,求解率都会下降 15–20 %,验证了两者都是必不可少的。

实际意义

  • 更可靠的 AI 驱动缺陷修复器 – 开发者可以将经过 SWE‑Fuse 训练的代理集成到 CI 流水线中,期望因模糊工单导致的误报更少。
  • 降低数据整理开销 – 由于框架从无问题的轨迹中学习,团队无需对每个缺陷报告进行繁琐清洗;模型可以自行纠正噪声输入。
  • 可扩展到更大的模型 – 熵感知的 RLVR 技术适用于 8B 和 32B 模型,表明它可以应用于企业环境中使用的更大规模 LLM。
  • 测试时的规模协同 – 将 SWE‑Fuse 与轻量级集成技巧(TTS)结合,可在无需重新训练的情况下实现接近最新水平的性能,对已经运行多个模型实例的组织而言是实际的收益。

限制与未来工作

  • 对高质量轨迹生成的依赖 – 无错误的轨迹是手工制作或来源于现有补丁;将其扩展到大规模代码库可能需要自动化的轨迹合成。
  • 基准范围 – SWE‑bench Verified 侧重于开源 GitHub issue;在专有的、领域特定的 bug 报告(例如嵌入式系统)上的表现尚未经过测试。
  • 熵超参数 – 剪裁调度是手动调优的;未来工作可以探索元学习或自适应调度,以在不同任务间实现泛化。
  • 与其他模态的集成 – 将框架扩展以融合堆栈跟踪、日志或执行轨迹,可能进一步提升对噪声 issue 文本的鲁棒性。

作者

  • Xin-Cheng Wen
  • Binbin Chen
  • Haoxuan Lan
  • Hang Yu
  • Peng Di
  • Cuiyun Gao

论文信息

  • arXiv ID: 2603.07927v1
  • 分类: cs.SE, cs.AI
  • 出版日期: 2026年3月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »