[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

发布: 3天前 (2026年2月14日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.13197v1

概述

本文介绍了 Perceive‑Simulate‑Imitate (PSI)，这是一条新管线，使机器人能够通过观看普通的人手视频来学习复杂的抓取‑放置技能——无需任何机器人收集的数据。通过将人类运动轨迹与模拟的抓取可行性检查配对，PSI 训练出一个模块化策略，首先选择一个任务兼容的抓取姿势，然后模仿观察到的抓取后运动，从而显著提升真实世界的成功率。

关键贡献

Simulation‑filtered grasp labeling: 使用物理模拟器为人类生成的轨迹标注二进制的“适合抓取”标记，将原始视频数据转化为用于任务感知抓取的监督学习信号。
Modular policy architecture: 将抓取生成（学习的抓取选择器）与轨迹模仿（运动模仿器）分离，使每个组件能够独立优化。
Zero‑robot‑data training: 证明整个系统可以仅使用公开可得的人类视频和模拟抓取进行训练，免除昂贵的机器人数据采集。
Real‑world validation: 在真实机器人上展示 PSI 在多样的抓取任务（例如物体重新定向、工具使用）上相较于朴素抓取生成器拥有更高的成功率。
Scalable data pipeline: 利用现有视频数据集（如 EPIC‑Kitchens、YouTube）作为几乎无限的操作演示来源。

方法论

感知： 使用现成的姿态估计和深度重建工具，从人类视频中提取三维手部轨迹。
模拟： 对每条轨迹运行快速物理仿真，让机器人抓手在记录的手部姿态下尝试抓取目标物体。仿真器返回一个 抓取适用性 标签（1 = 稳定且任务兼容，0 = 失败）。
模仿：
- 抓取选择器： 一个轻量级神经网络学习从物体几何和场景上下文预测适用性标签，实际上成为一个任务感知的抓取生成器。
- 轨迹模仿器： 另一个网络（例如条件扩散模型）学习在所选抓取姿态的条件下再现抓取后的运动。
执行： 在运行时，机器人首先查询抓取选择器获取可行的抓取，然后将该姿态输入轨迹模仿器，后者输出模仿人类动作的关节空间轨迹。

所有组件均使用标准的监督损失进行训练（抓取适用性的交叉熵，轨迹回归的 L2），无需强化学习或在线策略回滚。

结果与发现

Success rate boost: 在一个 6‑DOF 机械臂上，PSI 在 5 项基准任务中实现了约 ≈85 % 的任务完成率，而使用通用抓取生成器并随后使用相同的模仿模块时，仅约 ≈55 %。
Data efficiency: 只需要约 ~2 k 条过滤后的轨迹即可达到峰值性能，凸显了仿真过滤器的价值。
Generalization: 学习到的抓取选择器在未见过的物体（不同形状、纹理）上仅下降 7 % 的成功率，表明模型捕获了任务相关的抓取特征，而不是记忆特定实例。
Ablation: 移除仿真过滤器（即在所有原始轨迹上训练抓取选择器）导致整体成功率下降 20 %，验证了面向任务的抓取标注至关重要。

Practical Implications

快速技能上手: 公司只需提供公开可得的人类执行所需任务的视频，即可启动新的操作能力——无需在机器人本体上手工制作演示。
降低数据收集成本: 消除昂贵的“机器人在环”数据采集阶段，释放工程资源用于更高层次的系统集成。
模块化部署: 由于抓取选择和动作模仿是解耦的，开发者可以换入更好的抓取规划器（例如解析方法）或更具表现力的模仿器（例如基于 Transformer 的策略），而无需重新训练整个系统。
安全性与可靠性: 仿真过滤器充当理性检查，防止机器人尝试物理上不可能或不安全的抓取，这在仓库或家庭等非结构化环境中尤为重要。
可扩展的持续学习: 随着新的人类视频（例如用户生成内容）的出现，管道可以自动摄取它们，持续扩展机器人的技能库。

限制与未来工作

Simulation fidelity: 抓取适用性标签依赖于物理模拟器的精度；如果出现不匹配（例如摩擦建模），可能导致偶尔的误报/漏报。
Hand‑to‑gripper transfer: 该方法假设从人手姿势到机器人末端执行器的映射相对简单；对于高度灵巧的任务仍可能受到运动学差距的影响。
Limited to prehensile tasks: 仅限于抓取任务；非抓取操作（例如推、可变形物体处理）不在当前范围内。
Future directions: 作者建议结合域随机化模拟以提升鲁棒性，扩展框架至多物体场景，并在初始部署后探索机器人自监督的细化。

作者

Albert J. Zhai
Kuo-Hao Zeng
Jiasen Lu
Ali Farhadi
Shenlong Wang
Wei-Chiu Ma

论文信息

arXiv ID: 2602.13197v1
分类: cs.RO, cs.CV, cs.LG
发表时间: 2026年2月13日
PDF: 下载 PDF

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

通过扩散模型从面部嵌入实现逼真人脸重建

[Paper] EPRBench：高质量基准数据集用于基于事件流的视觉位置识别

[Paper] 自动驾驶车辆在恶劣天气条件下的目标检测鲁棒性