[Paper] SCOPE：语言模型作为一次性教师用于文本环境中的层次规划

发布: 2个月前 (2025年12月11日 GMT+8 02:26)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.09897v1

概览

本文提出了 SCOPE，一种将大型语言模型（LLM）转化为纯文本环境中层次规划的“一次性教师”的新方法。通过仅在训练开始时从 LLM 中提取子目标——一次性完成——SCOPE 预训练了一个轻量级的学生规划器，能够在不再调用 LLM 的情况下运行，从而显著降低计算成本，同时在 TextCraft 基准上仍然超越了之前的最先进水平。

关键贡献

一次性子目标生成 – 仅在初始化时使用 LLM 从示例轨迹中生成子目标，消除训练和推理期间的重复提示。
子目标条件预训练 (SCOPE) – 引入一个轻量级的层次规划器，学习遵循 LLM 生成的子目标，有效将 LLM 的世界知识蒸馏到紧凑模型中。
效率提升 – 将推理延迟从约 164 秒（基于 LLM 的 ADaPT）降低到约 3 秒，同时实现更高的成功率（0.56 对 0.52）。
实证验证 – 表明即使是次优的 LLM 生成子目标，也能为 TextCraft 文本规划环境中的层次分解提供强有力的支架。

方法论

收集示例轨迹 – 从目标文本环境中收集一小批成功（或部分成功）的动作序列。
LLM 子目标提取（一次性） – 使用大型预训练 LLM（如 GPT‑4）对每条轨迹进行提示，要求其将序列拆分为高层子目标（例如 “收集木材”、 “建造庇护所”）。此步骤仅执行一次。
学生规划器架构 – 构建两层模型：
- 高层策略 根据当前文本观测预测下一个要追求的子目标。
- 低层策略 执行原始动作以实现所选子目标。
子目标条件预训练 – 使用标准监督学习（子目标选择的交叉熵、低层动作的模仿损失）在提取的子目标上训练学生规划器。此阶段之后不再需要 LLM 查询。
微调（可选） – 在目标环境上进行短期微调，可进一步适应学生模型而无需再次调用 LLM。

整体流程类似于“教师‑学生”蒸馏，但教师的指导仅提供一次，而非在学习过程中反复出现。

结果与发现

指标	ADaPT（基于 LLM）	SCOPE
成功率（TextCraft）	0.52	0.56
每集推理时间	164.4 s	3.0 s
模型规模（学生）	–	~30 M 参数（≈ 1 % 的 LLM）

更高成功率且延迟极低 – SCOPE 以 55 倍的速度提升超越了之前的层次代理，使实时部署成为可能。
对次优子目标的鲁棒性 – 即使 LLM 生成的子目标并非完美最优，学生仍能学会补偿，表明层次支架的价值高于精确最优性。
可扩展性 – 由于 LLM 只被查询一次，该方法能够在更大数据集和更复杂环境中扩展，而不会导致计算成本成比例增长。

实际意义

可部署的代理 – 开发者可以将轻量级学生规划器嵌入游戏、交互式小说或基于文本的辅导系统中，满足延迟和资源限制的需求。
成本效益的知识转移 – 组织可以仅使用一次昂贵的 LLM API 来启动领域特定的规划器，随后完全离线运行。
快速原型 – 一次性子目标提取流水线可以脚本化以适配任何 LLM 提供商，实现对新文本环境的快速迭代，无需重新训练大型模型。
混合系统 – SCOPE 的架构适合“后备”设计：大多数决策使用学生规划器，只有在学生置信度低的罕见边缘情况才调用 LLM。

局限性与未来工作

可解释性权衡 – 由于子目标仅生成一次，开发者无法在训练期间动态检查或调整它们，限制了可解释性。
子目标质量依赖 – 该方法假设 LLM 的一次性子目标至少大致合理；高度噪声的子目标可能会降低性能。
领域泛化 – 实验仅局限于 TextCraft；将 SCOPE 扩展到更丰富的多模态或具身环境仍是未解问题。
未来方向 – 作者建议探索自适应子目标细化（例如偶尔重新查询 LLM）以及将 SCOPE 应用于代码生成或 API 调用等层次规划同样关键的任务。

作者

Haoye Lu
Pavan Seshadri
Kaheer Suleman

论文信息

arXiv ID: 2512.09897v1
分类: cs.AI, cs.CL
发表时间: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] SCOPE：语言模型作为一次性教师用于文本环境中的层次规划

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性