[Paper] SWE‑Protégé:学习有选择地与专家合作 解锁小型语言模型作为软件工程代理
发布: (2026年2月26日 GMT+8 01:11)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.22124v1
概述
本文提出了 SWE‑Protégé,一个轻量级的后训练框架,使得小型语言模型(SLM)能够通过学习何时以及如何向更强大的“专家”模型寻求帮助,充当软件工程代理。通过将软件修复视为协作式的导师指导过程,作者在保持小模型成本和延迟优势的同时,显著提升了 70 亿参数模型在具有挑战性的 SWE‑bench 基准上的表现。
关键贡献
- 导师‑受教范式: 将软件修复任务重新定义为 SLM(受教者)与强大专家模型之间的选择性协作,而非纯粹的单体生成。
- 稀疏专家查询: 引入一种机制,让受教者决定 何时 调用专家,实现每个任务约 4 次专家调用(约占总 token 的 11 %)。
- 双阶段训练: 将在专家增强轨迹上的监督微调与强化学习(RL)阶段相结合,后者对循环和不必要的专家依赖进行惩罚。
- 小模型的最新水平: 在对 Qwen2.5‑Coder‑7B‑Instruct 进行轻量后训练后,模型在 SWE‑bench Verified 上达到 42.4 % Pass@1,相较于之前最佳小模型基线提升了 25.4 % 的绝对值。
- 可推广框架: 该方法与模型无关,可应用于任何可微调的 SLM,为成本有效的 AI 辅助开发工具开辟了道路。
方法论
- 问题重新构框 – 作者将每个软件‑修复过程视为一系列状态(代码快照、测试结果等)。SLM 在每一步决定是自行继续还是向专家 LLM 请求建议。
- 数据生成 – 通过在各种修复任务上运行专家模型并记录其干预导致进展的点,生成专家增强轨迹。这些轨迹用作监督目标。
- 监督微调 (SFT) – 首先在专家增强数据上对 SLM 进行微调,学习模仿专家的建议,同时学习识别需要帮助的“停滞”状态。
- 主体强化学习 – 构建奖励模型以鼓励三种行为:(a) 任务完成,(b) 最小化专家调用,以及 (c) 避免动作循环(重复同一无效编辑)。随后使用 PPO 风格的 RL 对 SLM 进行训练,以最大化该奖励。
- 推理策略 – 部署时,受训模型在每一步运行轻量分类器决定:自行继续 还是 查询专家。若查询,则将专家的建议附加到上下文中继续执行。
结果与发现
| 指标 | 先前 SLM(基线) | SWE‑Protégé (7B) |
|---|---|---|
| SWE‑bench 验证的 Pass@1 | ~17 % | 42.4 % |
| 每任务专家调用次数 | 不适用(完整专家) | ~4 |
| 专家令牌占比 | 100 % | 11 % |
| 循环事件(退化重复) | 频繁 | 稀少(已明确惩罚) |
- Performance Jump: 25 % 的绝对提升表明,选择性的专家指导可以大幅缩小小模型与大模型之间的差距。
- Efficiency: 即使增加了专家调用,总体延迟和成本仍远低于端到端运行大型模型。
- Robustness: 强化学习阶段成功抑制了长期编码任务中一直困扰先前 SLM 的臭名昭著的“动作循环”问题。
实际意义
- Cost‑Effective AI Pair‑Programming: 开发团队可以在本地(或廉价的云虚拟机)部署一个中等规模的模型,仍然获得接近最新水平的修复能力,仅在真正需要时才调用重量级模型。
- Low‑Latency IDE Assistants: 由于 SLM 完成了大部分繁重工作,响应时间保持在交互范围内,使系统适用于编辑器中的实时代码建议。
- Customizable Expertise: 组织可以在保持轻量级原型的同时,替换为特定领域的专家模型(例如,专注于安全的 LLM),从而实现定制化帮助,而无需重新训练整个系统。
- Scalable CI/CD Integration: 自动化代码审查机器人可以在每个 PR 上运行轻量级原型;只有少数卡住的情况才会触发昂贵的专家调用,从而显著降低 CI 成本。
限制与未来工作
- 对强大专家的依赖: 该框架仍然需要在指导阶段访问高质量、通常是专有的大模型,这可能限制完全开源的部署。
- 专家信号稀疏: 虽然系统能够学习何时提问,但决策策略仍基于启发式,可能会错过需要专家洞察的细微错误。
- 超出修复的泛化能力: 本研究聚焦于 bug‑fixing(SWE‑bench)。将导师‑学徒范式扩展到特性实现、重构或文档生成等任务仍是一个未解之题。
- 强化学习的稳定性: 强化学习阶段对奖励塑形较为敏感;未来工作可以探索更稳健、自动化的奖励设计或课程学习策略。
总体而言,SWE‑Protégé 表明小模型不必永远隐藏在巨型模型的阴影下——通过学习在恰当时机提出恰当的问题,它们可以成为实用且经济的软件工程助理。
作者
- Patrick Tser Jern Kon
- Archana Pradeep
- Ang Chen
- Alexander P. Ellis
- Warren Hunt
- Zijian Wang
- John Yang
- Samuel Thompson
论文信息
- arXiv ID: 2602.22124v1
- 分类: cs.SE, cs.AI, cs.CL, cs.LG
- 发表时间: 2026年2月25日
- PDF: 下载 PDF