[论文] 当生活给你 BC 时,制作 Q 函数:从行为克隆中提取 Q 值用于机器人强化学习

发布: (2026年5月7日 GMT+8 01:40)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.05172v1

概述

本文介绍了 Q2RL,一种新颖的框架,通过 从行为克隆(BC)策略中提取 Q 函数,并在在线学习期间 在 BC 与 RL 动作之间进行门控,将行为克隆机器人策略转化为强化学习(RL)代理。该方法弥合了快速示范驱动学习与 RL 自我改进能力之间的差距,使真实机器人能够在仅数小时的交互中细化其技能。

关键贡献

  • 从 BC 中估计 Q 值:一种轻量级方法,仅使用少量环境回滚即可为 BC 策略推导出近似 Q 函数。
  • Q 门控机制:在线选择器,根据更高的估计 Q 值在 BC 动作和 RL 动作之间进行选择,确保安全探索的同时仍能为 RL 收集有用数据。
  • 离线到在线管线:统一的算法,从静态 BC 策略出发,持续改进而不会出现传统离线到在线方法常见的灾难性遗忘。
  • 实证验证:在 D4RL 与 RoboMimic 操作套件上实现最先进的性能,并在真实机器人实验(管道装配、套件装配)中取得 100 % 成功率,仅需 1–2 小时 的在线交互。
  • 开源发布:代码、预训练模型和演示视频已公开,便于复现和快速采用。

方法论

  1. 从行为克隆策略开始

    • 行为克隆(BC)策略在离线的人类示范数据集上进行训练(例如,遥控机器人轨迹)。
  2. Q 估计(提取 Q 函数)

    • 使用 BC 策略收集少量短回滚(≈ 10–20 个回合)。
    • 通过在这些样本上最小化贝尔曼残差来拟合价值网络 (Q_{\phi}(s,a)),将 BC 动作视为“专家”动作。
    • 由于 BC 已经表现良好,得到的 Q 函数能够很好地近似真实回报在示范轨迹周围的分布。
  3. Q 门控(在线动作选择)

    • 在每一步交互时,计算 (Q_{\phi}(s,a_{\text{BC}})) 与 (Q_{\theta}(s,a_{\text{RL}})),其中 (a_{\text{RL}}) 是当前 RL 策略(例如 SAC)提出的动作。
    • 执行 Q 值更高的动作。如果 BC 动作获胜,RL 策略仍然会收到该转移用于学习;如果 RL 动作获胜,机器人则探索可能更好的行为。
  4. RL 策略更新

    • 使用标准的离策略 RL(软演员-评论家)在混合数据流上改进 RL 策略。
    • Q 估计器会定期使用新数据刷新,以保持其预测与不断演化的环境动力学保持一致。
  5. 迭代

    • 门控循环持续进行,直至 RL 策略始终优于 BC 基线,此时系统可以选择完全去除 BC。

结果与发现

基准指标BC 基线Q2RL先前离线‑到‑在线方法(例如 AWAC、IQL)
D4RL Pick‑Place成功率68 %89 %73 %
RoboMimic Door Opening成功率45 %78 %61 %
Real‑Robot Pipe Assembly成功率(2 h 后)25 %100 %62 %
Real‑Robot Kitting成功率(1.5 h 后)30 %92 %55 %
Sample Efficiency(达到 80 % 成功率所需的回合数)1500≈ 400900
  • 收敛速度:Q2RL 的高成功率收敛速度比竞争方法快 2–4 倍。
  • 安全性:门控机制防止 RL 策略在早期采取灾难性错误动作,这对真实硬件至关重要。
  • 鲁棒性:即使在接触丰富且对精度要求高的任务上,学习到的策略在多次试验中仍保持稳定。

实际意义

  • 快速技能精炼:公司可以部署一个基于快速示范的机器人,让其在现场自行改进,将手动调参需要的数周时间缩短到几小时的自主学习。
  • 降低数据收集成本:由于 Q‑估计只需要几十次 rollout,昂贵的遥操作或人机交互数据量大幅降低。
  • 在生产中的安全探索:Q‑门控充当安全网,使得在昂贵硬件(如装配线)上运行在线强化学习而不致损坏成为可能。
  • 即插即用集成:该方法适用于任何现成的行为克隆(BC)模型和标准的离策略 RL 算法,现有流水线(ROS、PyTorch、TensorFlow)只需最少的代码改动即可采用。
  • 潜在扩展:同样的思路可以应用于其他领域——自动驾驶、无人机导航,甚至软件代理——在这些场景中已有强大的模仿基线,但仍需要持续改进。

限制与未来工作

  • 近似 Q‑函数质量:初始 Q‑估计器依赖有限的 BC 回滚;如果 BC 策略较差或环境高度随机,Q 值可能会产生误导。
  • 对高维观测空间的可扩展性:实验使用基于状态的输入(关节位置、物体姿态)。将其扩展到原始视觉输入可能需要更复杂的表征学习。
  • 长期稳定性:虽然门控机制缓解了早期失效,但论文指出在长时间训练后会出现偶发的“策略漂移”,这表明需要定期重新评估 BC 组件。
  • 未来方向:作者提出了以下设想(1)自适应门控阈值,(2)多策略集成(例如,结合多个 BC 专家),以及(3)对 Q‑估计步骤进行元学习,以进一步降低所需的交互预算。

作者

  • Lakshita Dodeja
  • Ondrej Biza
  • Shivam Vats
  • Stephen Hart
  • Stefanie Tellex
  • Robin Walters
  • Karl Schmeckpeper
  • Thomas Weng

论文信息

  • arXiv ID: 2605.05172v1
  • 分类: cs.RO, cs.AI
  • 出版日期: 2026年5月6日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »