[Paper] SCOPE:语言模型作为一次性教师用于文本环境中的层次规划
发布: (2025年12月11日 GMT+8 02:26)
6 min read
原文: arXiv
Source: arXiv - 2512.09897v1
概览
本文提出了 SCOPE,一种将大型语言模型(LLM)转化为纯文本环境中层次规划的“一次性教师”的新方法。通过仅在训练开始时从 LLM 中提取子目标——一次性完成——SCOPE 预训练了一个轻量级的学生规划器,能够在不再调用 LLM 的情况下运行,从而显著降低计算成本,同时在 TextCraft 基准上仍然超越了之前的最先进水平。
关键贡献
- 一次性子目标生成 – 仅在初始化时使用 LLM 从示例轨迹中生成子目标,消除训练和推理期间的重复提示。
- 子目标条件预训练 (SCOPE) – 引入一个轻量级的层次规划器,学习遵循 LLM 生成的子目标,有效将 LLM 的世界知识蒸馏到紧凑模型中。
- 效率提升 – 将推理延迟从约 164 秒(基于 LLM 的 ADaPT)降低到约 3 秒,同时实现更高的成功率(0.56 对 0.52)。
- 实证验证 – 表明即使是次优的 LLM 生成子目标,也能为 TextCraft 文本规划环境中的层次分解提供强有力的支架。
方法论
- 收集示例轨迹 – 从目标文本环境中收集一小批成功(或部分成功)的动作序列。
- LLM 子目标提取(一次性) – 使用大型预训练 LLM(如 GPT‑4)对每条轨迹进行提示,要求其将序列拆分为高层子目标(例如 “收集木材”、 “建造庇护所”)。此步骤仅执行一次。
- 学生规划器架构 – 构建两层模型:
- 高层策略 根据当前文本观测预测下一个要追求的子目标。
- 低层策略 执行原始动作以实现所选子目标。
- 子目标条件预训练 – 使用标准监督学习(子目标选择的交叉熵、低层动作的模仿损失)在提取的子目标上训练学生规划器。此阶段之后不再需要 LLM 查询。
- 微调(可选) – 在目标环境上进行短期微调,可进一步适应学生模型而无需再次调用 LLM。
整体流程类似于“教师‑学生”蒸馏,但教师的指导仅提供一次,而非在学习过程中反复出现。
结果与发现
| 指标 | ADaPT(基于 LLM) | SCOPE |
|---|---|---|
| 成功率(TextCraft) | 0.52 | 0.56 |
| 每集推理时间 | 164.4 s | 3.0 s |
| 模型规模(学生) | – | ~30 M 参数(≈ 1 % 的 LLM) |
- 更高成功率且延迟极低 – SCOPE 以 55 倍的速度提升超越了之前的层次代理,使实时部署成为可能。
- 对次优子目标的鲁棒性 – 即使 LLM 生成的子目标并非完美最优,学生仍能学会补偿,表明层次支架的价值高于精确最优性。
- 可扩展性 – 由于 LLM 只被查询一次,该方法能够在更大数据集和更复杂环境中扩展,而不会导致计算成本成比例增长。
实际意义
- 可部署的代理 – 开发者可以将轻量级学生规划器嵌入游戏、交互式小说或基于文本的辅导系统中,满足延迟和资源限制的需求。
- 成本效益的知识转移 – 组织可以仅使用一次昂贵的 LLM API 来启动领域特定的规划器,随后完全离线运行。
- 快速原型 – 一次性子目标提取流水线可以脚本化以适配任何 LLM 提供商,实现对新文本环境的快速迭代,无需重新训练大型模型。
- 混合系统 – SCOPE 的架构适合“后备”设计:大多数决策使用学生规划器,只有在学生置信度低的罕见边缘情况才调用 LLM。
局限性与未来工作
- 可解释性权衡 – 由于子目标仅生成一次,开发者无法在训练期间动态检查或调整它们,限制了可解释性。
- 子目标质量依赖 – 该方法假设 LLM 的一次性子目标至少大致合理;高度噪声的子目标可能会降低性能。
- 领域泛化 – 实验仅局限于 TextCraft;将 SCOPE 扩展到更丰富的多模态或具身环境仍是未解问题。
- 未来方向 – 作者建议探索自适应子目标细化(例如偶尔重新查询 LLM)以及将 SCOPE 应用于代码生成或 API 调用等层次规划同样关键的任务。
作者
- Haoye Lu
- Pavan Seshadri
- Kaheer Suleman
论文信息
- arXiv ID: 2512.09897v1
- 分类: cs.AI, cs.CL
- 发表时间: 2025 年 12 月 10 日
- PDF: Download PDF