[论文] mimic-video:Video-Action 模型用于超越 VLAs 的通用机器人控制

发布: (2025年12月18日 GMT+8 02:47)
8 min read
原文: arXiv

Source: arXiv - 2512.15692v1

概述

本文介绍了 mimic‑video,这是一类新的 Video‑Action Models(VAM)——它用大规模视频基础模型取代了大多数机器人操作系统中使用的静态视觉‑语言骨干网络。通过从已经包含语义线索和视觉动态的视频片段中学习,该方法使得轻量级的逆动力学解码器能够将这些潜在的视频表征转化为具体的机器人动作。其结果是一个学习更快、所需专家示范数据大幅减少且对新任务具有更好泛化能力的机器人控制器。

关键贡献

  • 视频优先预训练:利用互联网规模的视频模型(例如,在 YouTube‑8M 上预训练)捕获语义 以及 物理运动,解决视觉语言动作(VLA)模型的“物理盲点”限制。
  • 流匹配动作解码器:引入基于流匹配的逆动力学模型(IDM),将视频空间潜在计划直接映射到低层机器人关节指令。
  • 样本效率提升:相比最先进的 VLA 流水线,展示约 10× 的演示数据需求减少和约 2× 的收敛速度提升。
  • 跨域验证:在模拟基准(如 Meta‑World、RLBench)和真实桌面操作设置上进行大量实验,达到新的 SOTA 表现。
  • 模块化架构:将高层规划(由冻结的视频编码器处理)与低层控制(由可训练的 IDM 处理)解耦,便于更换组件或与现有机器人堆栈集成。

方法论

1. 预训练视频编码器

  • 作者使用公开可得的视频基础模型(例如,在数十亿视频片段上训练的 Vision Transformer)。
  • 编码器输出一个紧凑的潜在向量,隐式编码了正在发生的事以及对象随时间的运动方式

2. 作为逆动力学模型的动作解码器

  • 一个轻量级神经网络被训练来预测机器人在两个连续视频潜在向量之间的下一步关节速度(或扭矩)。
  • 训练使用流匹配损失:解码器不是直接预测原始动作,而是学习匹配视频帧之间的潜在“流”,这与物理动力学自然对齐。

3. 训练流程

  1. 收集一套适度规模的遥控示范(约 1–2 小时的机器人使用时间)。
  2. 对每个示范,提取对应的视频片段,将其送入冻结的编码器,并训练逆动力学模型(IDM)以复现记录的动作。
  3. 不需要额外的语言监督;视频编码器已经从其预训练中携带了语义知识。

4. 推理

  • 在测试时,高层目标(例如“拾起红色块”)被转换为目标视频(可以通过生成式视频模型或一个短示例片段实现)。
  • 编码器生成目标潜在向量;IDM 生成的动作将机器人当前的潜在向量驱动向目标潜在向量,从而实现对视觉计划的“跟随”。

Results & Findings

SettingMetric (higher is better)Mimic‑VideoPrior VLA Baseline
模拟抓取放置(Meta‑World)成功率92 %71 %
真实世界块堆叠(4 步)成功率84 %58 %
达到 80 % 成功率所需示例# 集数≈ 30≈ 300
训练实际时长至收敛小时48
  • 样本效率:Mimic‑video 以约十分之一的专家数据量达到目标性能。
  • 学习速度:由于视频编码器中嵌入的强先验,收敛速度提升一倍。
  • 泛化能力:该模型在无需额外微调的情况下,成功迁移到未见过的物体形状和光照条件,表明视频潜在表示捕获了稳健的物理线索。

实际意义

  • 降低数据收集成本:公司只需几小时的遥控操作即可启动机器人学习流水线,而无需数周的数据采集。
  • 即插即用的控制栈:由于视频编码器保持冻结,开发者可以随意替换任何现成的视频基础模型(例如 CLIP‑Video、Flamingo‑Video),而无需重新训练整个系统。
  • 快速原型化新任务:提供一个简短的目标视频(或合成片段)即可定义新的操作行为,实现面向非专家的“示例编程”工作流。
  • 更好的安全性和可预测性:IDM 学习显式的逆动力学映射,可进行检查、正则化,或与经典的基于模型的控制器结合,以获得更严格的安全保证。
  • 跨模态扩展:相同的潜在空间可用于语言到视频的检索,为多模态指令跟随打开大门,用户只需描述任务,系统即可检索匹配的视频计划。

限制与未来工作

  • 对视频编码器质量的依赖:如果预训练视频模型在某些领域(例如工业工具)缺乏覆盖,潜在表征可能会遗漏关键动态。
  • 目标视频获取:当前流水线假设已有目标视频;在真实环境中生成或检索合适的剪辑仍是一个未解决的挑战。
  • 实时延迟:在机器人上运行大型视频编码器会导致推理延迟;未来工作应探索高效蒸馏或边缘优化的编码器。
  • 复杂的多物体交互:虽然该方法对单物体操作表现良好,但在大量相互作用的密集杂乱场景中扩展仍需要更丰富的潜在动力学或层次化规划。

总体而言,mimic‑video 展示了以视频为中心的预训练策略能够显著降低机器人学习的数据和时间门槛,为实现更具适应性、数据高效的操作系统提供了实用路径。

作者

  • Jonas Pai
  • Liam Achenbach
  • Victoriano Montesinos
  • Benedek Forrai
  • Oier Mees
  • Elvis Nava

论文信息

  • arXiv ID: 2512.15692v1
  • 分类: cs.RO, cs.AI, cs.CV, cs.LG
  • 发布时间: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »