【论文】SWE‑RM：针对软件工程代理的无执行反馈

发布: 1个月前 (2025年12月26日 GMT+8 16:26)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.21919v1

概览

论文介绍了 SWE‑RM，一种大规模的“奖励模型”，能够在 不实际运行代码 的情况下评估 AI 代理生成的代码质量。通过提供细粒度、无需执行的反馈，SWE‑RM 使得通过测试时扩展（TTS）和强化学习（RL）来改进编码助手更加容易，同时规避了传统基于单元测试的信号的脆弱性和稀疏性。

无执行反馈：展示了奖励模型可以取代单元测试反馈，用于软件工程（SWE）代理，从而提供更丰富的学习信号。
全面的评估指标：表明仅有良好的 TTS 性能不足以支撑 RL；引入 分类准确率 和 校准度 作为必备的 RL‑ready 指标。
受控实验：系统研究了数据规模、策略混合以及来源组成如何影响奖励模型在这三项指标上的鲁棒性。
混合专家架构：提出 SWE‑RM，一个拥有 30 B 参数、推理时仅激活 3 B 专家的模型，在保持计算效率的同时实现了高准确率。
最新技术成果：在 SWE‑Bench Verified 基准上，使开源编码代理（如 Qwen3‑Coder‑Flash、Qwen3‑Coder‑Max）的表现提升 10–7 个百分点，超越所有先前的开源模型。

问题框定 – 将代码生成视为一个序列决策过程。不是仅依赖单元测试的二元通过/失败，而是训练一个 奖励模型，为任何生成的程序预测连续的质量分数。
数据收集 – 从多个现有编码代理中收集大量的 (提示, 生成代码, 人类评分质量) 三元组。数据集混合高质量和低质量样本，以教会模型进行区分。
模型设计 – 使用 Mixture‑of‑Experts (MoE) Transformer：共享的主干网络将每个 token 路由到少量专家子网络。推理时仅激活 3 B 参数，保持低延迟。
训练目标 – 优化三种互补的损失：
- 排序损失 用于 TTS（选择最佳轨迹）。
- 分类损失 用于提升二元正确性预测（对 RL 很重要）。
- 校准损失（例如温度缩放）以确保预测分数反映真实概率。
评估流程 –
- TTS：使用奖励模型对多个候选程序重新排序，并在 SWE‑Bench Verified 上测量 top‑1 成功率。
- RL：使用 PPO 对编码代理进行微调，以奖励模型作为评论者（critic），随后评估同一基准。
- 指标：报告准确率、Expected Calibration Error (ECE)，以及 RL 特有的奖励曲线。

模型（基线）	TTS 准确率 ↑	RL 准确率 ↑	校准 (ECE ↓)
Qwen3‑Coder‑Flash	51.6 % → 62.0 %	+9.4 pp	0.18 → 0.11
Qwen3‑Coder‑Max	67.0 % → 74.6 %	+7.6 pp	0.14 → 0.07

TTS 提升 来自更好的轨迹排序；模型能够在众多候选中可靠地挑选出质量最高的那个。
RL 改进 超过 TTS 增幅，进一步证明分类准确率和校准对于稳定的策略更新至关重要。
消融实验 表明：
- 将奖励模型的训练数据从 10 万扩展到 100 万条样本后，收益在约 50 万条后出现递减。
- 混合策略（例如同时使用高容量和轻量级 coder 的输出）能够提升鲁棒性。
- 添加少量合成的有缺陷代码有助于模型学习惩罚细微错误。

更快的迭代周期：开发者可以即时评估代码建议，无需启动测试环境，从而显著降低 AI 辅助编码工具的 CI 延迟。
更好的基于 RL 的微调：构建专有编码助手的公司现在可以将 SWE‑RM 作为即插即用的奖励信号，使用更少的 RL 步骤实现更高的正确性。
资源高效部署：MoE 设计使模型能够在单个 GPU（3 B 活跃参数）上运行，同时保留 30 B 模型的知识——非常适合需要低延迟推理的 SaaS 平台。
跨任务通用性：由于 SWE‑RM 是从人工质量判断而非特定测试套件中学习的，它可以重新用于代码审查、错误修复建议，甚至文档生成等相关任务。