[Paper] 自回归模型中的涌现时间抽象实现层次强化学习
发布: (2025年12月24日 GMT+8 02:51)
8 min read
原文: arXiv
Source: arXiv - 2512.20605v1
(请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。)
概述
本文展示了大型自回归模型(如 GPT 风格的语言模型)能够学习 时间抽象——跨越许多低层步骤的高层“宏动作”。这通过训练一个次级的、非因果的控制器来直接操控模型内部激活实现。作者在网络内部而不是仅在 token 输出上进行强化学习,从而在稀疏奖励任务上实现了更高效的探索,为基于基础模型的层次化强化学习开辟了道路。
关键贡献
- Internal‑RL 框架: 引入“内部强化学习”,其中更高层的控制器直接影响预训练自回归模型的残差流激活。
- 时间抽象发现: 证明控制器能够将长序列的低层动作压缩为紧凑的潜在控制器(子策略),并学习终止条件。
- 层次组合: 表明将这些潜在控制器串联可实现高效探索,并在新任务上快速适应。
- 实证验证: 在网格世界导航和 MuJoCo 运动基准上进行实验,展示了层次结构,其中标准的逐标记 RL 失效,而内部 RL 成功。
- 可扩展设计: 该方法可与现有大规模预训练模型配合使用,仅需额外的适度控制器网络和 RL 微调。
方法论
- 基础模型: 以在下一个 token 预测任务上预训练的大型自回归 Transformer(例如语言模型)为起点。其隐藏状态的“残差流”是操作的目标。
- 高阶控制器: 一个非因果序列模型(例如双向 Transformer)接收当前状态,并在每个时间步输出 控制向量。该向量被加到基础模型的残差流中,从而有效地引导其内部动态。
- 潜在动作: 控制器的输出被解释为 潜在动作(或子策略)。每个潜在动作会运行若干可变数量的基础模型步,直至触发学习到的终止信号。
- 内部强化学习循环: 强化学习算法(如 PPO 或 SAC)在潜在动作上操作,仅在潜在动作结束后从环境中获取奖励。梯度通过控制器反向传播到基础模型,使整个系统能够端到端微调。
- 训练方案:
- 在大规模语料上预训练基础模型(标准做法)。
- 在目标任务上使用强化学习训练控制器,同时冻结或轻微微调基础模型。
- 可选地在后期解冻基础模型,进行联合优化。
关键洞见是,控制器能够 在更长的时间范围内进行规划,因为它直接操控内部表征,绕过了必须逐个生成低层 token/动作的顺序需求。
结果与发现
| 环境 | 标准逐标记 RL | 内部‑RL(潜在控制器) | 观察 |
|---|---|---|---|
| 2‑D 网格世界(稀疏目标) | 在 1M 步内未收敛 | 在 <200k 步内解决 >90 % 的回合 | 学会宏观动作(例如 “前往走廊”) |
| MuJoCo 蚂蚁迷宫(层次导航) | 在稀疏奖励下停滞 | 稳定到达目标,学习 “直走”、 “转向”、 “爬升” 子策略 | 控制器在可变长度后终止(≈10‑30 低层步) |
| 对未见迷宫布局的迁移 | 泛化能力差 | 重用已学控制器,快速适应 | 展示潜在动作的组合性 |
总体而言,内部‑RL 代理在稀疏奖励任务上实现 2–5× 更快的学习,并表现出 可解释的子行为,与人类设计的原语相吻合。
实际意义
- 更快的基础模型 RL 微调: 开发者可以在不需要昂贵的逐标记探索开销的情况下,将大型语言或多模态模型适配到 RL 任务(例如机器人、游戏 AI)。
- 层次化技能库: 潜在控制器充当可重用的“技能”,可以在项目之间存储、共享和组合,从而减少对每个新环境从头训练的需求。
- 稀疏奖励问题的样本效率提升: 自动驾驶、仓库机器人或对话系统等行业(成功信号稀少)可以受益于更快的收敛。
- 可解释性与调试: 由于每个控制器对应语义上有意义的行为块,工程师可以检查、编辑或替换特定子策略,而无需重新训练整个模型。
- 兼容现有流水线: 该方法可接入标准 RL 库(如 RLlib、Stable‑Baselines),并适用于任何预训练的自回归 Transformer,使采纳成本相对低。
限制与未来工作
- 控制器规模与训练成本: 添加非因果序列模型会引入额外的参数和内存开销,对于非常大的基础模型可能难以承受。
- 非因果假设: 高阶控制器依赖未来上下文(双向注意力),这限制了其在严格的在线设置中使用,因为未来观测不可得。
- 任务特定性: 实验聚焦于具有明确层次结构的环境;在高度随机或非层次任务上的表现仍不明确。
- 对多模态基础模型的可扩展性: 将内部强化学习扩展到视觉‑语言或音频‑语言模型需要对异构潜在空间进行细致处理。
未来的研究方向包括轻量级控制器架构、兼容在线使用的变体,以及将该方法扩展到安全性和延迟至关重要的真实机器人平台。
作者
- Seijin Kobayashi
- Yanick Schimpf
- Maximilian Schlegel
- Angelika Steger
- Maciej Wolczyk
- Johannes von Oswald
- Nino Scherre
- Kaitlin Maile
- Guillaume Lajoie
- Blake A. Richards
- Rif A. Saurous
- James Manyika
- Blaise Agüera y Arcas
- Alexander Meulemans
- João Sacramento
论文信息
- arXiv ID: 2512.20605v1
- 类别: cs.LG, cs.AI
- 出版日期: 2025年12月23日
- PDF: Download PDF