[Paper] 模仿有效方法:Simulation-Filtered Modular Policy Learning 来自人类视频

发布: (2026年2月14日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.13197v1

概述

本文介绍了 Perceive‑Simulate‑Imitate (PSI),这是一条新管线,使机器人能够通过观看普通的人手视频来学习复杂的抓取‑放置技能——无需任何机器人收集的数据。通过将人类运动轨迹与模拟的抓取可行性检查配对,PSI 训练出一个模块化策略,首先选择一个任务兼容的抓取姿势,然后模仿观察到的抓取后运动,从而显著提升真实世界的成功率。

关键贡献

  • Simulation‑filtered grasp labeling: 使用物理模拟器为人类生成的轨迹标注二进制的“适合抓取”标记,将原始视频数据转化为用于任务感知抓取的监督学习信号。
  • Modular policy architecture: 将抓取生成(学习的抓取选择器)与轨迹模仿(运动模仿器)分离,使每个组件能够独立优化。
  • Zero‑robot‑data training: 证明整个系统可以仅使用公开可得的人类视频和模拟抓取进行训练,免除昂贵的机器人数据采集。
  • Real‑world validation: 在真实机器人上展示 PSI 在多样的抓取任务(例如物体重新定向、工具使用)上相较于朴素抓取生成器拥有更高的成功率。
  • Scalable data pipeline: 利用现有视频数据集(如 EPIC‑Kitchens、YouTube)作为几乎无限的操作演示来源。

方法论

  1. 感知: 使用现成的姿态估计和深度重建工具,从人类视频中提取三维手部轨迹。
  2. 模拟: 对每条轨迹运行快速物理仿真,让机器人抓手在记录的手部姿态下尝试抓取目标物体。仿真器返回一个 抓取适用性 标签(1 = 稳定且任务兼容,0 = 失败)。
  3. 模仿:
    • 抓取选择器: 一个轻量级神经网络学习从物体几何和场景上下文预测适用性标签,实际上成为一个任务感知的抓取生成器。
    • 轨迹模仿器: 另一个网络(例如条件扩散模型)学习在所选抓取姿态的条件下再现抓取后的运动。
  4. 执行: 在运行时,机器人首先查询抓取选择器获取可行的抓取,然后将该姿态输入轨迹模仿器,后者输出模仿人类动作的关节空间轨迹。

所有组件均使用标准的监督损失进行训练(抓取适用性的交叉熵,轨迹回归的 L2),无需强化学习或在线策略回滚。

结果与发现

  • Success rate boost: 在一个 6‑DOF 机械臂上,PSI 在 5 项基准任务中实现了约 ≈85 % 的任务完成率,而使用通用抓取生成器并随后使用相同的模仿模块时,仅约 ≈55 %
  • Data efficiency: 只需要约 ~2 k 条过滤后的轨迹即可达到峰值性能,凸显了仿真过滤器的价值。
  • Generalization: 学习到的抓取选择器在未见过的物体(不同形状、纹理)上仅下降 7 % 的成功率,表明模型捕获了任务相关的抓取特征,而不是记忆特定实例。
  • Ablation: 移除仿真过滤器(即在所有原始轨迹上训练抓取选择器)导致整体成功率下降 20 %,验证了面向任务的抓取标注至关重要。

Practical Implications

  • 快速技能上手: 公司只需提供公开可得的人类执行所需任务的视频,即可启动新的操作能力——无需在机器人本体上手工制作演示。
  • 降低数据收集成本: 消除昂贵的“机器人在环”数据采集阶段,释放工程资源用于更高层次的系统集成。
  • 模块化部署: 由于抓取选择和动作模仿是解耦的,开发者可以换入更好的抓取规划器(例如解析方法)或更具表现力的模仿器(例如基于 Transformer 的策略),而无需重新训练整个系统。
  • 安全性与可靠性: 仿真过滤器充当理性检查,防止机器人尝试物理上不可能或不安全的抓取,这在仓库或家庭等非结构化环境中尤为重要。
  • 可扩展的持续学习: 随着新的人类视频(例如用户生成内容)的出现,管道可以自动摄取它们,持续扩展机器人的技能库。

限制与未来工作

  • Simulation fidelity: 抓取适用性标签依赖于物理模拟器的精度;如果出现不匹配(例如摩擦建模),可能导致偶尔的误报/漏报。
  • Hand‑to‑gripper transfer: 该方法假设从人手姿势到机器人末端执行器的映射相对简单;对于高度灵巧的任务仍可能受到运动学差距的影响。
  • Limited to prehensile tasks: 仅限于抓取任务;非抓取操作(例如推、可变形物体处理)不在当前范围内。
  • Future directions: 作者建议结合域随机化模拟以提升鲁棒性,扩展框架至多物体场景,并在初始部署后探索机器人自监督的细化。

作者

  • Albert J. Zhai
  • Kuo-Hao Zeng
  • Jiasen Lu
  • Ali Farhadi
  • Shenlong Wang
  • Wei-Chiu Ma

论文信息

  • arXiv ID: 2602.13197v1
  • 分类: cs.RO, cs.CV, cs.LG
  • 发表时间: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »