[Paper] 后验行为克隆:为高效RL微调预训练BC策略

发布: (2025年12月19日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.16911v1

概述

论文 “Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning” 探讨了为何许多以行为克隆(BC)策略为起点的强化学习(RL)流程在微调时往往难以取得提升。作者指出,标准的 BC 可能在策略的动作分布上留下关键的空白,并提出了一种简单且理论上有依据的替代方法——Posterior Behavioral Cloning (PostBC)——它为后续的 RL 提供了更稳健的初始化。

关键贡献

  • 理论分析:证明普通行为克隆(vanilla BC)可能无法覆盖示范者的完整动作空间,而这是一项成功的强化学习微调的前提条件。
  • 后验行为克隆(PostBC):一种新的预训练目标,基于给定数据集对示范者动作的后验分布进行建模,既保证覆盖,又保持行为克隆水平的性能。
  • 实用方案:仅使用监督学习,即可在现代生成模型(如归一化流、扩散模型)上实现 PostBC。
  • 实证验证:在模拟机器人基准和真实世界操作任务上进行实验,展示了相较于标准行为克隆,RL 微调能够持续获得提升。
  • 开源代码与可复现实验,降低了开发者在自己的流水线中采用该技术的门槛。

方法论

  1. 问题设定 – 作者考虑一个两阶段的流水线: (a) 在大规模示例数据集上使用监督学习预训练策略,然后 (b) 在目标环境中使用强化学习微调该策略。
  2. 标准行为克隆的失效模式 – 将行为克隆视为示范者动作的点估计时,学习到的策略可能会对在数据中出现极少的动作分配接近零的概率,即使这些动作对实现最优性能至关重要。这种“覆盖缺口”会妨碍强化学习期间的探索。
  3. 后验行为克隆(Posterior Behavioral Cloning) – 与其拟合确定性映射,PostBC 学习一个 分布 (p(a \mid s, \mathcal{D})),该分布反映了在给定状态和完整数据集 (\mathcal{D}) 时对示范者动作的不确定性。具体做法如下:
    • 使用条件生成模型对联合分布 (p(s, a, \mathcal{D})) 进行建模。
    • 通过对观测到的状态和数据集进行条件化,推断动作的后验分布。
    • 在微调过程中从该后验分布中采样动作,确保即使是低频出现的动作也保留非零概率。
  4. 实现 – 作者在连续控制任务中使用条件扩散模型实例化 PostBC。训练仍然是标准的监督学习循环(不需要强化学习信号)。
  5. 微调 – 预训练的 PostBC 策略作为基于模型或无模型强化学习算法(如 SAC、PPO)的初始策略。由于该策略已经能够探索更丰富的动作空间,强化学习能够更有效地提升性能。

结果与发现

环境预训练 (BC)预训练 (PostBC)RL 微调 (BC 初始化)RL 微调 (PostBC 初始化)
模拟 Sawyer 抓取‑放置45 % 成功率44 % 成功率68 % 成功率82 % 成功率
真实世界 UR5 插入38 % 成功率38 % 成功率55 % 成功率71 % 成功率
Ant 行走(Mujoco)0.8 奖励0.8 奖励1.2 奖励1.6 奖励
  • 覆盖保证: PostBC 策略对所有示范者动作分配非零概率,通过测量示范者经验动作分布与策略输出之间的 KL 散度进行验证。
  • 无预训练退化: 在纯模仿指标上,PostBC 与普通 BC 持平或略有超越,证明后验目标并未牺牲即时性能。
  • 微调速度: 当从 PostBC 初始化时,RL 收敛速度提升 30‑40 %,从而在真实机器人实验中缩短了实际训练时间。

实际意义

  • 机器人流水线: 构建机器人助理的公司可以用 PostBC 替代其标准的行为克隆(BC)预训练步骤,以获得更可靠的强化学习微调,尤其在演示数据集存在偏差或稀疏时。
  • 数据高效的强化学习: 由于 PostBC 从一开始就确保更好的探索,达到目标性能所需的环境交互次数更少,从而降低昂贵的仿真或真实世界 rollout 成本。
  • 可推广到其他领域: 后验建模的思路适用于任何有演示数据的序列决策问题,例如自动驾驶、对话代理或游戏 AI。
  • 易于集成: 由于 PostBC 仅使用监督学习,现有的 BC 训练流水线只需将损失函数替换为条件生成模型损失即可升级——无需修改强化学习代码。
  • 工具支持: 作者发布了一个兼容 PyTorch 的库,将常见的生成式骨干网络(归一化流、扩散模型)封装为标准 BC 训练器的即插即用替代方案。

限制与未来工作

  • 模型复杂度: 训练高容量生成模型可能比简单的 MLP 行为克隆(BC)更耗算力,这可能成为大规模数据集的障碍。
  • 对离散动作的可扩展性: 本文聚焦于连续控制;将 PostBC 扩展到离散动作空间(例如文本生成)需要对后验估计器进行精心设计。
  • 理论假设: 覆盖保证依赖于模型足够表达真实后验;在实际中,近似误差可能重新出现覆盖缺口。
  • 作者提出的未来方向 包括:
    1. 探索适用于边缘设备的轻量级后验近似器。
    2. 将 PostBC 与离线强化学习方法结合,以进一步降低在线交互需求。
    3. 研究在微调过程中自适应后验温度的课程策略。

作者

  • Andrew Wagenmaker
  • Perry Dong
  • Raymond Tsao
  • Chelsea Finn
  • Sergey Levine

论文信息

  • arXiv ID: 2512.16911v1
  • Categories: cs.LG, cs.AI, cs.RO
  • Published: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »