[Paper] SCOPE:语言模型作为一次性教师用于文本环境中的层次规划

发布: (2025年12月11日 GMT+8 02:26)
6 min read
原文: arXiv

Source: arXiv - 2512.09897v1

概览

本文提出了 SCOPE,一种将大型语言模型(LLM)转化为纯文本环境中层次规划的“一次性教师”的新方法。通过仅在训练开始时从 LLM 中提取子目标——一次性完成——SCOPE 预训练了一个轻量级的学生规划器,能够在不再调用 LLM 的情况下运行,从而显著降低计算成本,同时在 TextCraft 基准上仍然超越了之前的最先进水平。

关键贡献

  • 一次性子目标生成 – 仅在初始化时使用 LLM 从示例轨迹中生成子目标,消除训练和推理期间的重复提示。
  • 子目标条件预训练 (SCOPE) – 引入一个轻量级的层次规划器,学习遵循 LLM 生成的子目标,有效将 LLM 的世界知识蒸馏到紧凑模型中。
  • 效率提升 – 将推理延迟从约 164 秒(基于 LLM 的 ADaPT)降低到约 3 秒,同时实现更高的成功率(0.56 对 0.52)。
  • 实证验证 – 表明即使是次优的 LLM 生成子目标,也能为 TextCraft 文本规划环境中的层次分解提供强有力的支架。

方法论

  1. 收集示例轨迹 – 从目标文本环境中收集一小批成功(或部分成功)的动作序列。
  2. LLM 子目标提取(一次性) – 使用大型预训练 LLM(如 GPT‑4)对每条轨迹进行提示,要求其将序列拆分为高层子目标(例如 “收集木材”、 “建造庇护所”)。此步骤仅执行一次。
  3. 学生规划器架构 – 构建两层模型:
    • 高层策略 根据当前文本观测预测下一个要追求的子目标。
    • 低层策略 执行原始动作以实现所选子目标。
  4. 子目标条件预训练 – 使用标准监督学习(子目标选择的交叉熵、低层动作的模仿损失)在提取的子目标上训练学生规划器。此阶段之后不再需要 LLM 查询。
  5. 微调(可选) – 在目标环境上进行短期微调,可进一步适应学生模型而无需再次调用 LLM。

整体流程类似于“教师‑学生”蒸馏,但教师的指导仅提供一次,而非在学习过程中反复出现。

结果与发现

指标ADaPT(基于 LLM)SCOPE
成功率(TextCraft)0.520.56
每集推理时间164.4 s3.0 s
模型规模(学生)~30 M 参数(≈ 1 % 的 LLM)
  • 更高成功率且延迟极低 – SCOPE 以 55 倍的速度提升超越了之前的层次代理,使实时部署成为可能。
  • 对次优子目标的鲁棒性 – 即使 LLM 生成的子目标并非完美最优,学生仍能学会补偿,表明层次支架的价值高于精确最优性。
  • 可扩展性 – 由于 LLM 只被查询一次,该方法能够在更大数据集和更复杂环境中扩展,而不会导致计算成本成比例增长。

实际意义

  • 可部署的代理 – 开发者可以将轻量级学生规划器嵌入游戏、交互式小说或基于文本的辅导系统中,满足延迟和资源限制的需求。
  • 成本效益的知识转移 – 组织可以仅使用一次昂贵的 LLM API 来启动领域特定的规划器,随后完全离线运行。
  • 快速原型 – 一次性子目标提取流水线可以脚本化以适配任何 LLM 提供商,实现对新文本环境的快速迭代,无需重新训练大型模型。
  • 混合系统 – SCOPE 的架构适合“后备”设计:大多数决策使用学生规划器,只有在学生置信度低的罕见边缘情况才调用 LLM。

局限性与未来工作

  • 可解释性权衡 – 由于子目标仅生成一次,开发者无法在训练期间动态检查或调整它们,限制了可解释性。
  • 子目标质量依赖 – 该方法假设 LLM 的一次性子目标至少大致合理;高度噪声的子目标可能会降低性能。
  • 领域泛化 – 实验仅局限于 TextCraft;将 SCOPE 扩展到更丰富的多模态或具身环境仍是未解问题。
  • 未来方向 – 作者建议探索自适应子目标细化(例如偶尔重新查询 LLM)以及将 SCOPE 应用于代码生成或 API 调用等层次规划同样关键的任务。

作者

  • Haoye Lu
  • Pavan Seshadri
  • Kaheer Suleman

论文信息

  • arXiv ID: 2512.09897v1
  • 分类: cs.AI, cs.CL
  • 发表时间: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »