[Paper] SWE-Fuse：通过无问题轨迹学习和熵感知的 RLVR 训练赋能软件代理

发布: 2天前 (2026年3月9日 GMT+8 11:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.07927v1

Overview

论文 SWE‑Fuse 解决了一个出乎意料常见的障碍，即针对大型语言模型（LLM）驱动的软件工程代理：许多真实世界的问题报告噪声大、描述模糊，甚至与实际修复问题的代码更改完全不匹配。通过让代理在误导性问题文本有帮助时忽略它，在可靠时依赖它，SWE‑Fuse 在具有挑战性的 SWE‑bench Verified 基准上显著提升了自动化 bug 修复的成功率。

关键贡献

Issue‑description‑aware training framework 将 issue‑guided 与 issue‑free 示例相结合，使模型能够学习在何时信任错误报告，何时依赖纯代码层面的推理。
Issue‑free‑driven trajectory learning 模块在不依赖错误描述的情况下构建逐步调试的 “轨迹”，从而降低噪声输入的影响。
Entropy‑aware RLVR (Reinforcement Learning with Value‑based Regularization) training 动态根据模型预测的熵值调整裁剪阈值，鼓励在不确定样本上进行探索，在有信心的样本上保持稳定。
State‑of‑the‑art empirical gains：相较于最强基线，求解率分别提升了 43 %（8B）和 60 %（32B），并在结合测试时扩展（TTS）后进一步提升。

方法论

Data Fusion – 作者从两个训练数据池开始：
- Issue‑guided 样本，包含原始 bug 报告（通常噪声较多）。
- Issue‑free 样本，去除描述，仅保留代码上下文和正确的修复。
Trajectory Learning – 对于 issue‑free 样本，他们生成一系列中间调试步骤（例如，“运行测试 → 定位失败的测试 → 检查堆栈跟踪 → 应用补丁”）。模型被训练去复现该轨迹，学习一种不依赖文本 issue 线索的程序化调试思维方式。
Entropy‑aware RLVR – 在 RL‑style fine‑tuning 期间，损失裁剪因子由模型输出的熵调节：
- 高熵 → 裁剪更宽松 → 代理可以探索多样化的动作（当 issue 描述模糊时有用）。
- 低熵 → 裁剪更严格 → 保留模型的自信预测，防止不稳定的更新。
Training Loop – 两个模块交替进行：模型在学习 issue‑free 轨迹和 issue‑guided 示例之间交替，并在整个过程中应用 entropy‑aware RLVR 损失。
Evaluation – 在 SWE‑bench Verified 上进行性能评估，该基准包含真实 GitHub issue 并已知真实修复。作者还测试了一个 test‑time scaling (TTS) 包装器，运行多个模型实例并聚合它们的输出。

结果与发现

模型	基线求解率	SWE‑Fuse 求解率	Δ（绝对值）
8B LLM	~12 %	49.8 %（使用 TTS）	+37.8 %
32B LLM	~15 %	65.2 %（使用 TTS）	+50.2 %

不使用 TTS 时，SWE‑Fuse 已经单独超越了之前最佳的 8B/32B 基线，提升分别为 43 % 和 60 %。
熵感知裁剪是稳定性的主要驱动因素：相较于固定裁剪的 RLVR 基线，训练方差下降约 30 %。
消融实验表明，去除无问题轨迹模块或熵感知组件任意一个，求解率都会下降 15–20 %，验证了两者都是必不可少的。

实际意义

更可靠的 AI 驱动缺陷修复器 – 开发者可以将经过 SWE‑Fuse 训练的代理集成到 CI 流水线中，期望因模糊工单导致的误报更少。
降低数据整理开销 – 由于框架从无问题的轨迹中学习，团队无需对每个缺陷报告进行繁琐清洗；模型可以自行纠正噪声输入。
可扩展到更大的模型 – 熵感知的 RLVR 技术适用于 8B 和 32B 模型，表明它可以应用于企业环境中使用的更大规模 LLM。
测试时的规模协同 – 将 SWE‑Fuse 与轻量级集成技巧（TTS）结合，可在无需重新训练的情况下实现接近最新水平的性能，对已经运行多个模型实例的组织而言是实际的收益。

限制与未来工作

对高质量轨迹生成的依赖 – 无错误的轨迹是手工制作或来源于现有补丁；将其扩展到大规模代码库可能需要自动化的轨迹合成。
基准范围 – SWE‑bench Verified 侧重于开源 GitHub issue；在专有的、领域特定的 bug 报告（例如嵌入式系统）上的表现尚未经过测试。
熵超参数 – 剪裁调度是手动调优的；未来工作可以探索元学习或自适应调度，以在不同任务间实现泛化。
与其他模态的集成 – 将框架扩展以融合堆栈跟踪、日志或执行轨迹，可能进一步提升对噪声 issue 文本的鲁棒性。

作者

Xin-Cheng Wen
Binbin Chen
Haoxuan Lan
Hang Yu
Peng Di
Cuiyun Gao

论文信息

arXiv ID: 2603.07927v1
分类: cs.SE, cs.AI
出版日期: 2026年3月9日
PDF: 下载 PDF

[Paper] SWE-Fuse：通过无问题轨迹学习和熵感知的 RLVR 训练赋能软件代理

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 基于表征学习的任务感知调制用于陆地碳通量的上尺度

[Paper] 理解基于 Large Language Model 驱动的指南在让 Virtual Reality 对盲人和低视力人士可及方面的使用

[Paper] 说谎前先思考：推理如何提升诚实

[Paper] 面向 Python 的 Neural Debugger