[Paper] SWE‑Protégé：学习有选择地与专家合作解锁小型语言模型作为软件工程代理

发布: 3天前 (2026年2月26日 GMT+8 01:11)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.22124v1

概述

本文提出了 SWE‑Protégé，一个轻量级的后训练框架，使得小型语言模型（SLM）能够通过学习何时以及如何向更强大的“专家”模型寻求帮助，充当软件工程代理。通过将软件修复视为协作式的导师指导过程，作者在保持小模型成本和延迟优势的同时，显著提升了 70 亿参数模型在具有挑战性的 SWE‑bench 基准上的表现。

关键贡献

导师‑受教范式: 将软件修复任务重新定义为 SLM（受教者）与强大专家模型之间的选择性协作，而非纯粹的单体生成。
稀疏专家查询: 引入一种机制，让受教者决定何时调用专家，实现每个任务约 4 次专家调用（约占总 token 的 11 %）。
双阶段训练: 将在专家增强轨迹上的监督微调与强化学习（RL）阶段相结合，后者对循环和不必要的专家依赖进行惩罚。
小模型的最新水平: 在对 Qwen2.5‑Coder‑7B‑Instruct 进行轻量后训练后，模型在 SWE‑bench Verified 上达到 42.4 % Pass@1，相较于之前最佳小模型基线提升了 25.4 % 的绝对值。
可推广框架: 该方法与模型无关，可应用于任何可微调的 SLM，为成本有效的 AI 辅助开发工具开辟了道路。

方法论

问题重新构框 – 作者将每个软件‑修复过程视为一系列状态（代码快照、测试结果等）。SLM 在每一步决定是自行继续还是向专家 LLM 请求建议。
数据生成 – 通过在各种修复任务上运行专家模型并记录其干预导致进展的点，生成专家增强轨迹。这些轨迹用作监督目标。
监督微调 (SFT) – 首先在专家增强数据上对 SLM 进行微调，学习模仿专家的建议，同时学习识别需要帮助的“停滞”状态。
主体强化学习 – 构建奖励模型以鼓励三种行为：(a) 任务完成，(b) 最小化专家调用，以及 (c) 避免动作循环（重复同一无效编辑）。随后使用 PPO 风格的 RL 对 SLM 进行训练，以最大化该奖励。
推理策略 – 部署时，受训模型在每一步运行轻量分类器决定：自行继续 还是 查询专家。若查询，则将专家的建议附加到上下文中继续执行。

结果与发现

指标	先前 SLM（基线）	SWE‑Protégé (7B)
SWE‑bench 验证的 Pass@1	~17 %	42.4 %
每任务专家调用次数	不适用（完整专家）	~4
专家令牌占比	100 %	11 %
循环事件（退化重复）	频繁	稀少（已明确惩罚）

Performance Jump: 25 % 的绝对提升表明，选择性的专家指导可以大幅缩小小模型与大模型之间的差距。
Efficiency: 即使增加了专家调用，总体延迟和成本仍远低于端到端运行大型模型。
Robustness: 强化学习阶段成功抑制了长期编码任务中一直困扰先前 SLM 的臭名昭著的“动作循环”问题。

实际意义

Cost‑Effective AI Pair‑Programming: 开发团队可以在本地（或廉价的云虚拟机）部署一个中等规模的模型，仍然获得接近最新水平的修复能力，仅在真正需要时才调用重量级模型。
Low‑Latency IDE Assistants: 由于 SLM 完成了大部分繁重工作，响应时间保持在交互范围内，使系统适用于编辑器中的实时代码建议。
Customizable Expertise: 组织可以在保持轻量级原型的同时，替换为特定领域的专家模型（例如，专注于安全的 LLM），从而实现定制化帮助，而无需重新训练整个系统。
Scalable CI/CD Integration: 自动化代码审查机器人可以在每个 PR 上运行轻量级原型；只有少数卡住的情况才会触发昂贵的专家调用，从而显著降低 CI 成本。

限制与未来工作

对强大专家的依赖： 该框架仍然需要在指导阶段访问高质量、通常是专有的大模型，这可能限制完全开源的部署。
专家信号稀疏： 虽然系统能够学习何时提问，但决策策略仍基于启发式，可能会错过需要专家洞察的细微错误。
超出修复的泛化能力： 本研究聚焦于 bug‑fixing（SWE‑bench）。将导师‑学徒范式扩展到特性实现、重构或文档生成等任务仍是一个未解之题。
强化学习的稳定性： 强化学习阶段对奖励塑形较为敏感；未来工作可以探索更稳健、自动化的奖励设计或课程学习策略。

总体而言，SWE‑Protégé 表明小模型不必永远隐藏在巨型模型的阴影下——通过学习在恰当时机提出恰当的问题，它们可以成为实用且经济的软件工程助理。

作者

Patrick Tser Jern Kon
Archana Pradeep
Ang Chen
Alexander P. Ellis
Warren Hunt
Zijian Wang
John Yang
Samuel Thompson

论文信息

arXiv ID: 2602.22124v1
分类: cs.SE, cs.AI, cs.CL, cs.LG
发表时间: 2026年2月25日
PDF: 下载 PDF

[Paper] SWE‑Protégé：学习有选择地与专家合作解锁小型语言模型作为软件工程代理

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型