[Paper] 模仿有效方法:Simulation-Filtered Modular Policy Learning 来自人类视频
发布: (2026年2月14日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.13197v1
概述
本文介绍了 Perceive‑Simulate‑Imitate (PSI),这是一条新管线,使机器人能够通过观看普通的人手视频来学习复杂的抓取‑放置技能——无需任何机器人收集的数据。通过将人类运动轨迹与模拟的抓取可行性检查配对,PSI 训练出一个模块化策略,首先选择一个任务兼容的抓取姿势,然后模仿观察到的抓取后运动,从而显著提升真实世界的成功率。
关键贡献
- Simulation‑filtered grasp labeling: 使用物理模拟器为人类生成的轨迹标注二进制的“适合抓取”标记,将原始视频数据转化为用于任务感知抓取的监督学习信号。
- Modular policy architecture: 将抓取生成(学习的抓取选择器)与轨迹模仿(运动模仿器)分离,使每个组件能够独立优化。
- Zero‑robot‑data training: 证明整个系统可以仅使用公开可得的人类视频和模拟抓取进行训练,免除昂贵的机器人数据采集。
- Real‑world validation: 在真实机器人上展示 PSI 在多样的抓取任务(例如物体重新定向、工具使用)上相较于朴素抓取生成器拥有更高的成功率。
- Scalable data pipeline: 利用现有视频数据集(如 EPIC‑Kitchens、YouTube)作为几乎无限的操作演示来源。
方法论
- 感知: 使用现成的姿态估计和深度重建工具,从人类视频中提取三维手部轨迹。
- 模拟: 对每条轨迹运行快速物理仿真,让机器人抓手在记录的手部姿态下尝试抓取目标物体。仿真器返回一个 抓取适用性 标签(1 = 稳定且任务兼容,0 = 失败)。
- 模仿:
- 抓取选择器: 一个轻量级神经网络学习从物体几何和场景上下文预测适用性标签,实际上成为一个任务感知的抓取生成器。
- 轨迹模仿器: 另一个网络(例如条件扩散模型)学习在所选抓取姿态的条件下再现抓取后的运动。
- 执行: 在运行时,机器人首先查询抓取选择器获取可行的抓取,然后将该姿态输入轨迹模仿器,后者输出模仿人类动作的关节空间轨迹。
所有组件均使用标准的监督损失进行训练(抓取适用性的交叉熵,轨迹回归的 L2),无需强化学习或在线策略回滚。
结果与发现
- Success rate boost: 在一个 6‑DOF 机械臂上,PSI 在 5 项基准任务中实现了约 ≈85 % 的任务完成率,而使用通用抓取生成器并随后使用相同的模仿模块时,仅约 ≈55 %。
- Data efficiency: 只需要约 ~2 k 条过滤后的轨迹即可达到峰值性能,凸显了仿真过滤器的价值。
- Generalization: 学习到的抓取选择器在未见过的物体(不同形状、纹理)上仅下降 7 % 的成功率,表明模型捕获了任务相关的抓取特征,而不是记忆特定实例。
- Ablation: 移除仿真过滤器(即在所有原始轨迹上训练抓取选择器)导致整体成功率下降 20 %,验证了面向任务的抓取标注至关重要。
Practical Implications
- 快速技能上手: 公司只需提供公开可得的人类执行所需任务的视频,即可启动新的操作能力——无需在机器人本体上手工制作演示。
- 降低数据收集成本: 消除昂贵的“机器人在环”数据采集阶段,释放工程资源用于更高层次的系统集成。
- 模块化部署: 由于抓取选择和动作模仿是解耦的,开发者可以换入更好的抓取规划器(例如解析方法)或更具表现力的模仿器(例如基于 Transformer 的策略),而无需重新训练整个系统。
- 安全性与可靠性: 仿真过滤器充当理性检查,防止机器人尝试物理上不可能或不安全的抓取,这在仓库或家庭等非结构化环境中尤为重要。
- 可扩展的持续学习: 随着新的人类视频(例如用户生成内容)的出现,管道可以自动摄取它们,持续扩展机器人的技能库。
限制与未来工作
- Simulation fidelity: 抓取适用性标签依赖于物理模拟器的精度;如果出现不匹配(例如摩擦建模),可能导致偶尔的误报/漏报。
- Hand‑to‑gripper transfer: 该方法假设从人手姿势到机器人末端执行器的映射相对简单;对于高度灵巧的任务仍可能受到运动学差距的影响。
- Limited to prehensile tasks: 仅限于抓取任务;非抓取操作(例如推、可变形物体处理)不在当前范围内。
- Future directions: 作者建议结合域随机化模拟以提升鲁棒性,扩展框架至多物体场景,并在初始部署后探索机器人自监督的细化。
作者
- Albert J. Zhai
- Kuo-Hao Zeng
- Jiasen Lu
- Ali Farhadi
- Shenlong Wang
- Wei-Chiu Ma
论文信息
- arXiv ID: 2602.13197v1
- 分类: cs.RO, cs.CV, cs.LG
- 发表时间: 2026年2月13日
- PDF: 下载 PDF