[Paper] SWE-Fuse:通过无问题轨迹学习和熵感知的 RLVR 训练赋能软件代理
Source: arXiv - 2603.07927v1
Overview
论文 SWE‑Fuse 解决了一个出乎意料常见的障碍,即针对大型语言模型(LLM)驱动的软件工程代理:许多真实世界的问题报告噪声大、描述模糊,甚至与实际修复问题的代码更改完全不匹配。通过让代理在误导性问题文本有帮助时 忽略 它,在可靠时 依赖 它,SWE‑Fuse 在具有挑战性的 SWE‑bench Verified 基准上显著提升了自动化 bug 修复的成功率。
关键贡献
- Issue‑description‑aware training framework 将 issue‑guided 与 issue‑free 示例相结合,使模型能够学习在何时信任错误报告,何时依赖纯代码层面的推理。
- Issue‑free‑driven trajectory learning 模块在不依赖错误描述的情况下构建逐步调试的 “轨迹”,从而降低噪声输入的影响。
- Entropy‑aware RLVR (Reinforcement Learning with Value‑based Regularization) training 动态根据模型预测的熵值调整裁剪阈值,鼓励在不确定样本上进行探索,在有信心的样本上保持稳定。
- State‑of‑the‑art empirical gains:相较于最强基线,求解率分别提升了 43 %(8B)和 60 %(32B),并在结合测试时扩展(TTS)后进一步提升。
方法论
-
Data Fusion – 作者从两个训练数据池开始:
- Issue‑guided 样本,包含原始 bug 报告(通常噪声较多)。
- Issue‑free 样本,去除描述,仅保留代码上下文和正确的修复。
-
Trajectory Learning – 对于 issue‑free 样本,他们生成一系列中间调试步骤(例如,“运行测试 → 定位失败的测试 → 检查堆栈跟踪 → 应用补丁”)。模型被训练去复现该轨迹,学习一种不依赖文本 issue 线索的程序化调试思维方式。
-
Entropy‑aware RLVR – 在 RL‑style fine‑tuning 期间,损失裁剪因子由模型输出的熵调节:
- 高熵 → 裁剪更宽松 → 代理可以探索多样化的动作(当 issue 描述模糊时有用)。
- 低熵 → 裁剪更严格 → 保留模型的自信预测,防止不稳定的更新。
-
Training Loop – 两个模块交替进行:模型在学习 issue‑free 轨迹和 issue‑guided 示例之间交替,并在整个过程中应用 entropy‑aware RLVR 损失。
-
Evaluation – 在 SWE‑bench Verified 上进行性能评估,该基准包含真实 GitHub issue 并已知真实修复。作者还测试了一个 test‑time scaling (TTS) 包装器,运行多个模型实例并聚合它们的输出。
结果与发现
| 模型 | 基线求解率 | SWE‑Fuse 求解率 | Δ(绝对值) |
|---|---|---|---|
| 8B LLM | ~12 % | 49.8 %(使用 TTS) | +37.8 % |
| 32B LLM | ~15 % | 65.2 %(使用 TTS) | +50.2 % |
- 不使用 TTS 时,SWE‑Fuse 已经单独超越了之前最佳的 8B/32B 基线,提升分别为 43 % 和 60 %。
- 熵感知裁剪是稳定性的主要驱动因素:相较于固定裁剪的 RLVR 基线,训练方差下降约 30 %。
- 消融实验表明,去除无问题轨迹模块或熵感知组件任意一个,求解率都会下降 15–20 %,验证了两者都是必不可少的。
实际意义
- 更可靠的 AI 驱动缺陷修复器 – 开发者可以将经过 SWE‑Fuse 训练的代理集成到 CI 流水线中,期望因模糊工单导致的误报更少。
- 降低数据整理开销 – 由于框架从无问题的轨迹中学习,团队无需对每个缺陷报告进行繁琐清洗;模型可以自行纠正噪声输入。
- 可扩展到更大的模型 – 熵感知的 RLVR 技术适用于 8B 和 32B 模型,表明它可以应用于企业环境中使用的更大规模 LLM。
- 测试时的规模协同 – 将 SWE‑Fuse 与轻量级集成技巧(TTS)结合,可在无需重新训练的情况下实现接近最新水平的性能,对已经运行多个模型实例的组织而言是实际的收益。
限制与未来工作
- 对高质量轨迹生成的依赖 – 无错误的轨迹是手工制作或来源于现有补丁;将其扩展到大规模代码库可能需要自动化的轨迹合成。
- 基准范围 – SWE‑bench Verified 侧重于开源 GitHub issue;在专有的、领域特定的 bug 报告(例如嵌入式系统)上的表现尚未经过测试。
- 熵超参数 – 剪裁调度是手动调优的;未来工作可以探索元学习或自适应调度,以在不同任务间实现泛化。
- 与其他模态的集成 – 将框架扩展以融合堆栈跟踪、日志或执行轨迹,可能进一步提升对噪声 issue 文本的鲁棒性。
作者
- Xin-Cheng Wen
- Binbin Chen
- Haoxuan Lan
- Hang Yu
- Peng Di
- Cuiyun Gao
论文信息
- arXiv ID: 2603.07927v1
- 分类: cs.SE, cs.AI
- 出版日期: 2026年3月9日
- PDF: 下载 PDF