[论文] 当生活给你 BC 时，制作 Q 函数：从行为克隆中提取 Q 值用于机器人强化学习

发布: 4天前 (2026年5月7日 GMT+8 01:40)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.05172v1

概述

本文介绍了 Q2RL，一种新颖的框架，通过 从行为克隆（BC）策略中提取 Q 函数，并在在线学习期间 在 BC 与 RL 动作之间进行门控，将行为克隆机器人策略转化为强化学习（RL）代理。该方法弥合了快速示范驱动学习与 RL 自我改进能力之间的差距，使真实机器人能够在仅数小时的交互中细化其技能。

关键贡献

从 BC 中估计 Q 值：一种轻量级方法，仅使用少量环境回滚即可为 BC 策略推导出近似 Q 函数。
Q 门控机制：在线选择器，根据更高的估计 Q 值在 BC 动作和 RL 动作之间进行选择，确保安全探索的同时仍能为 RL 收集有用数据。
离线到在线管线：统一的算法，从静态 BC 策略出发，持续改进而不会出现传统离线到在线方法常见的灾难性遗忘。
实证验证：在 D4RL 与 RoboMimic 操作套件上实现最先进的性能，并在真实机器人实验（管道装配、套件装配）中取得 100 % 成功率，仅需 1–2 小时 的在线交互。
开源发布：代码、预训练模型和演示视频已公开，便于复现和快速采用。

方法论

从行为克隆策略开始
- 行为克隆（BC）策略在离线的人类示范数据集上进行训练（例如，遥控机器人轨迹）。
Q 估计（提取 Q 函数）
- 使用 BC 策略收集少量短回滚（≈ 10–20 个回合）。
- 通过在这些样本上最小化贝尔曼残差来拟合价值网络 (Q_{\phi}(s,a))，将 BC 动作视为“专家”动作。
- 由于 BC 已经表现良好，得到的 Q 函数能够很好地近似真实回报在示范轨迹周围的分布。
Q 门控（在线动作选择）
- 在每一步交互时，计算 (Q_{\phi}(s,a_{\text{BC}})) 与 (Q_{\theta}(s,a_{\text{RL}}))，其中 (a_{\text{RL}}) 是当前 RL 策略（例如 SAC）提出的动作。
- 执行 Q 值更高的动作。如果 BC 动作获胜，RL 策略仍然会收到该转移用于学习；如果 RL 动作获胜，机器人则探索可能更好的行为。
RL 策略更新
- 使用标准的离策略 RL（软演员-评论家）在混合数据流上改进 RL 策略。
- Q 估计器会定期使用新数据刷新，以保持其预测与不断演化的环境动力学保持一致。
迭代
- 门控循环持续进行，直至 RL 策略始终优于 BC 基线，此时系统可以选择完全去除 BC。

结果与发现

基准	指标	BC 基线	Q2RL	先前离线‑到‑在线方法（例如 AWAC、IQL）
D4RL Pick‑Place	成功率	68 %	89 %	73 %
RoboMimic Door Opening	成功率	45 %	78 %	61 %
Real‑Robot Pipe Assembly	成功率（2 h 后）	25 %	100 %	62 %
Real‑Robot Kitting	成功率（1.5 h 后）	30 %	92 %	55 %
Sample Efficiency（达到 80 % 成功率所需的回合数）	–	1500	≈ 400	900

收敛速度：Q2RL 的高成功率收敛速度比竞争方法快 2–4 倍。
安全性：门控机制防止 RL 策略在早期采取灾难性错误动作，这对真实硬件至关重要。
鲁棒性：即使在接触丰富且对精度要求高的任务上，学习到的策略在多次试验中仍保持稳定。

实际意义

快速技能精炼：公司可以部署一个基于快速示范的机器人，让其在现场自行改进，将手动调参需要的数周时间缩短到几小时的自主学习。
降低数据收集成本：由于 Q‑估计只需要几十次 rollout，昂贵的遥操作或人机交互数据量大幅降低。
在生产中的安全探索：Q‑门控充当安全网，使得在昂贵硬件（如装配线）上运行在线强化学习而不致损坏成为可能。
即插即用集成：该方法适用于任何现成的行为克隆（BC）模型和标准的离策略 RL 算法，现有流水线（ROS、PyTorch、TensorFlow）只需最少的代码改动即可采用。
潜在扩展：同样的思路可以应用于其他领域——自动驾驶、无人机导航，甚至软件代理——在这些场景中已有强大的模仿基线，但仍需要持续改进。

限制与未来工作

近似 Q‑函数质量：初始 Q‑估计器依赖有限的 BC 回滚；如果 BC 策略较差或环境高度随机，Q 值可能会产生误导。
对高维观测空间的可扩展性：实验使用基于状态的输入（关节位置、物体姿态）。将其扩展到原始视觉输入可能需要更复杂的表征学习。
长期稳定性：虽然门控机制缓解了早期失效，但论文指出在长时间训练后会出现偶发的“策略漂移”，这表明需要定期重新评估 BC 组件。
未来方向：作者提出了以下设想（1）自适应门控阈值，（2）多策略集成（例如，结合多个 BC 专家），以及（3）对 Q‑估计步骤进行元学习，以进一步降低所需的交互预算。

作者

Lakshita Dodeja
Ondrej Biza
Shivam Vats
Stephen Hart
Stefanie Tellex
Robin Walters
Karl Schmeckpeper
Thomas Weng

论文信息

arXiv ID: 2605.05172v1
分类: cs.RO, cs.AI
出版日期: 2026年5月6日
PDF: Download PDF

[论文] 当生活给你 BC 时，制作 Q 函数：从行为克隆中提取 Q 值用于机器人强化学习

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择