[Paper] 从推理到运动的流动:从第一人称人类交互视频中学习3D手部轨迹预测

发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.16907v1

Overview

该论文介绍了 EgoMAN,一个全新大规模的第一人称视角视频数据集以及相应的模型,该模型能够在推理运动背后 why(原因)的同时预测 3‑D 手部轨迹。通过将基于语言的推理与运动生成紧密耦合,作者弥合了高层语义理解与低层手部控制之间的鸿沟——这一能力可用于驱动更直观的 AR/VR 界面、机器人技术和辅助技术。

关键贡献

  • EgoMAN 数据集:219 K 个六自由度(6DoF)手部轨迹,配对 3 M 条结构化问答(QA)三元组,涵盖交互阶段的语义、空间和运动推理。
  • 轨迹‑令牌接口:一种新颖的表示方法,将短运动片段视为离散令牌,实现语言模型与运动生成器的无缝集成。
  • 推理‑到‑运动框架:一个两阶段训练流水线,首先将视觉‑语言推理与预期运动对齐,然后细化轨迹生成以遵循物理动力学。
  • 阶段感知预测:模型能够根据交互阶段(例如,伸手、抓取、操作)输出不同的轨迹,提高真实感和任务成功率。
  • 跨场景泛化:在未见过的真实环境中展示了稳健的性能,表明该方法能够超越训练分布进行扩展。

方法论

  1. 数据收集与标注

    • 记录了人们与日常物品(厨房、办公室、户外)交互的第一人称视频。
    • 使用校准的手部追踪装置捕获 6DoF 手部姿态。
    • 为每次交互标注 QA 对,探询手部在做什么为何移动以及接下来会去向何处
  2. 轨迹令牌化

    • 将连续的手部运动划分为短且重叠的窗口(≈200 ms)。
    • 每个窗口通过学习的运动编码器编码为离散令牌,类似于视觉“词汇”。
  3. 推理模块

    • 基于 Transformer 的视觉语言模型输入视频帧及关联的 QA 上下文,生成潜在的“意图”向量。
  4. 运动生成模块

    • 意图向量作为条件,驱动解码器预测一系列轨迹令牌,随后通过学习的运动解码器将令牌去令牌化为平滑的 3‑D 手部路径。
  5. 渐进式训练

    • 阶段 1:使意图向量与真实令牌序列对齐(监督交叉熵)。
    • 阶段 2:使用动力学损失(速度/加速度一致性)和阶段分类损失进行微调,以强化阶段感知。
  6. 推理

    • 给定新的第一人称片段和可选的 QA 提示,系统输出完整的 6DoF 手部轨迹,兼顾推理结果和物理可行性。

结果与发现

指标EgoMAN(我们的)先前的 3D 手部预测消融(无推理)
平均位移误差 (ADE) ↓23 mm38 mm31 mm
阶段分类准确率 ↑92 %71 %78 %
操作任务成功率 ↑84 %60 %71 %
  • 语义落地:当被问及“手为什么向杯子移动?”时,模型生成的轨迹正确地朝向杯柄靠近,展示了语言线索直接塑造运动的能力。
  • 泛化能力:在一个未见的“车库”场景上测试,ADE 仅增加了 4 mm,表明对新物体布局具有鲁棒性。
  • 消融实验:去除推理模块会导致准确率和阶段感知均下降,进一步验证了推理‑运动链接的重要性。

实际意义

  • AR/VR 交互:开发者可以将模型嵌入头戴式显示器,在手部完全可见之前预测用户的手部轨迹,从而实现更平滑的对象捕捉、预测触觉以及降低延迟。
  • 机器人远程操作:将通过自视摄像头捕获的人类意图转换为机器人手部轨迹,可提升在杂乱环境中的远程操控能力。
  • 辅助技术:对于运动控制受限的用户,具备推理感知的预测器可以根据高级指令(如“拿起笔”)自动完成手部动作。
  • 内容创作:动画制作流程可利用该模型根据分镜描述自动生成逼真的手部动作,减少手工关键帧的工作量。
  • 数据集作为基准:EgoMAN 的问答驱动结构提供了一种在 推理精度 两方面评估模型的新方式,鼓励社区构建更具认知能力的运动系统。

局限性与未来工作

  • 硬件依赖:训练数据依赖高精度手部追踪器;在普通 RGB‑only 设置上扩展可能会引入噪声。
  • 时间视野:当前预测覆盖最长 2 秒;更长期的规划(例如多步骤任务)仍未探索。
  • 物体动力学:模型假设物体是静止的;处理可变形或运动的物体需要结合物理模拟器。
  • 语言范围:问答对是经过策划的;扩展到自由形式的自然语言指令可以提升适用性。

未来的研究方向包括与深度/IMU 传感器的多模态融合、用于复杂任务序列的层次化规划,以及开放域语言落地,以实现真正的对话式系统。

作者

  • Mingfei Chen
  • Yifan Wang
  • Zhengqin Li
  • Homanga Bharadhwaj
  • Yujin Chen
  • Chuan Qin
  • Ziyi Kou
  • Yuan Tian
  • Eric Whitmire
  • Rajinder Sodhi
  • Hrvoje Benko
  • Eli Shlizerman
  • Yue Liu

论文信息

  • arXiv ID: 2512.16907v1
  • 分类: cs.CV, cs.AI, cs.RO
  • 发布: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »