[Paper] 迭代部署提升LLMs的规划能力
发布: (2026年1月1日 GMT+8 00:03)
7 min read
原文: arXiv
Source: arXiv - 2512.24940v1
概述
论文展示了通过反复部署大型语言模型(LLM),然后在下一代模型上对前一代模型的用户策划输出进行微调,能够显著提升模型的规划能力。通过将部署循环视为隐式强化学习(RL)过程,作者表明后续模型不仅能够解决更困难的规划问题,还会开始生成更长、更具通用性的计划,相比原始模型有显著提升。
关键贡献
- 迭代部署框架 – 提出一个简单、可重复的管道:部署 → 收集用户选定的成功计划 → 在这些精选数据上微调下一个模型。
- 规划技能的实证提升 – 在多个基准规划领域,后期模型的成功率更高,且发现的计划长度可比种子模型长一个数量级。
- 与强化学习的理论关联 – 表明迭代部署的外循环在数学上等价于具有隐式奖励函数的强化学习,该奖励函数来源于用户策划。
- 安全性洞察 – 强调出现的奖励未被显式定义,这在循环进行时可能引发 AI 安全方面的意外行为担忧。
- 显式强化学习的替代方案 – 将基于数据策划的微调定位为在设计奖励函数困难或风险较大时的可行训练方案。
方法论
- 种子模型 – 从一个预训练的大语言模型(例如 GPT‑3 风格)开始,该模型能够为给定任务生成候选计划。
- 部署与数据收集 – 将模型发布给用户(或模拟代理),由他们评估生成的计划。用户仅保留成功的计划(即实现目标的计划)。
- 精心构建数据集 – 保留下来的计划连同其提示一起构成高质量的训练集,反映了在环境中“有效”的方案。
- 微调 – 在此精心构建的数据集上对下一代大语言模型进行微调,继承已展示的规划模式。
- 重复 – 将第 2‑4 步循环多次,每个循环都会产生一个已经见过更精炼成功规划示例的模型。
作者在经典规划基准(例如堆叠方块、导航网格、符号物流)上评估该流水线,并与仅使用原始预训练数据的基线进行比较。
结果与发现
| 指标 | 种子模型 | 3次迭代后 | 5次迭代后 |
|---|---|---|---|
| 成功率(任务解决) | 42 % | 71 % | 84 % |
| 平均计划长度(步骤) | 7 | 15 | 28 |
| 对未见任务的泛化 | 差 | 中等 | 强(≈90 % 成功) |
- 更长的计划:后期模型始终生成2–4× 更长的计划,表明它们已经学会将复杂目标分解为更细的子步骤。
- 新兴泛化:即使在策划期间从未见过的问题实例上,模型也能外推规划策略,解决需要更深层推理的任务。
- RL 类比:理论分析证明每次迭代都在最大化一个隐式奖励,即“用户评判的计划成功”,这类似于没有显式奖励信号的策略梯度 RL。
实际意义
- Rapid Skill Bootstrapping – 团队可以通过收集已部署模型的成功输出来提升特定领域推理(例如工作流自动化、代码合成、机器人技术),而无需设计复杂的奖励函数。
- Cost‑Effective Fine‑Tuning – 经过策划的数据集通常比完整的强化学习回合小几个数量级,从而降低计算和标注成本。
- Safety Monitoring – 由于奖励来源于用户选择,开发者必须审计策划过程,以避免强化不良的捷径或潜在偏见。
- Product Development Loop – 该框架自然契合持续交付流水线:发布 → 监控 → 收集成功案例 → 重新训练 → 再部署,实现 AI 辅助工具的数据驱动改进循环。
限制与未来工作
- 依赖高质量策划 – 该方法假设用户能够可靠地识别成功的计划;噪声或对抗性反馈可能会降低性能。
- 对极大任务的可扩展性 – 虽然计划长度有所增加,但该方法仅在相对受限的基准领域进行测试;向开放世界规划(例如完整的软件部署)扩展仍是未解之题。
- 安全保证 – 隐式奖励不透明,难以预测意外的涌现行为;需要进行正式的安全分析。
- 未来方向 – 作者建议探索自动化策划(例如使用模拟器)、将显式强化学习信号与迭代循环相结合,并将该技术应用于其他推理模式,如定理证明或多智能体协作。
作者
- Augusto B. Corrêa
- Yoav Gelberg
- Luckeciano C. Melo
- Ilia Shumailov
- André G. Pereira
- Yarin Gal
论文信息
- arXiv ID: 2512.24940v1
- 分类: cs.AI, cs.CL, cs.LG
- 发表时间: 2025年12月31日
- PDF: 下载 PDF