[Paper] 从推理到运动的流动:从第一人称人类交互视频中学习3D手部轨迹预测
发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.16907v1
Overview
该论文介绍了 EgoMAN,一个全新大规模的第一人称视角视频数据集以及相应的模型,该模型能够在推理运动背后 why(原因)的同时预测 3‑D 手部轨迹。通过将基于语言的推理与运动生成紧密耦合,作者弥合了高层语义理解与低层手部控制之间的鸿沟——这一能力可用于驱动更直观的 AR/VR 界面、机器人技术和辅助技术。
关键贡献
- EgoMAN 数据集:219 K 个六自由度(6DoF)手部轨迹,配对 3 M 条结构化问答(QA)三元组,涵盖交互阶段的语义、空间和运动推理。
- 轨迹‑令牌接口:一种新颖的表示方法,将短运动片段视为离散令牌,实现语言模型与运动生成器的无缝集成。
- 推理‑到‑运动框架:一个两阶段训练流水线,首先将视觉‑语言推理与预期运动对齐,然后细化轨迹生成以遵循物理动力学。
- 阶段感知预测:模型能够根据交互阶段(例如,伸手、抓取、操作)输出不同的轨迹,提高真实感和任务成功率。
- 跨场景泛化:在未见过的真实环境中展示了稳健的性能,表明该方法能够超越训练分布进行扩展。
方法论
-
数据收集与标注
- 记录了人们与日常物品(厨房、办公室、户外)交互的第一人称视频。
- 使用校准的手部追踪装置捕获 6DoF 手部姿态。
- 为每次交互标注 QA 对,探询手部在做什么、为何移动以及接下来会去向何处。
-
轨迹令牌化
- 将连续的手部运动划分为短且重叠的窗口(≈200 ms)。
- 每个窗口通过学习的运动编码器编码为离散令牌,类似于视觉“词汇”。
-
推理模块
- 基于 Transformer 的视觉语言模型输入视频帧及关联的 QA 上下文,生成潜在的“意图”向量。
-
运动生成模块
- 意图向量作为条件,驱动解码器预测一系列轨迹令牌,随后通过学习的运动解码器将令牌去令牌化为平滑的 3‑D 手部路径。
-
渐进式训练
- 阶段 1:使意图向量与真实令牌序列对齐(监督交叉熵)。
- 阶段 2:使用动力学损失(速度/加速度一致性)和阶段分类损失进行微调,以强化阶段感知。
-
推理
- 给定新的第一人称片段和可选的 QA 提示,系统输出完整的 6DoF 手部轨迹,兼顾推理结果和物理可行性。
结果与发现
| 指标 | EgoMAN(我们的) | 先前的 3D 手部预测 | 消融(无推理) |
|---|---|---|---|
| 平均位移误差 (ADE) ↓ | 23 mm | 38 mm | 31 mm |
| 阶段分类准确率 ↑ | 92 % | 71 % | 78 % |
| 操作任务成功率 ↑ | 84 % | 60 % | 71 % |
- 语义落地:当被问及“手为什么向杯子移动?”时,模型生成的轨迹正确地朝向杯柄靠近,展示了语言线索直接塑造运动的能力。
- 泛化能力:在一个未见的“车库”场景上测试,ADE 仅增加了 4 mm,表明对新物体布局具有鲁棒性。
- 消融实验:去除推理模块会导致准确率和阶段感知均下降,进一步验证了推理‑运动链接的重要性。
实际意义
- AR/VR 交互:开发者可以将模型嵌入头戴式显示器,在手部完全可见之前预测用户的手部轨迹,从而实现更平滑的对象捕捉、预测触觉以及降低延迟。
- 机器人远程操作:将通过自视摄像头捕获的人类意图转换为机器人手部轨迹,可提升在杂乱环境中的远程操控能力。
- 辅助技术:对于运动控制受限的用户,具备推理感知的预测器可以根据高级指令(如“拿起笔”)自动完成手部动作。
- 内容创作:动画制作流程可利用该模型根据分镜描述自动生成逼真的手部动作,减少手工关键帧的工作量。
- 数据集作为基准:EgoMAN 的问答驱动结构提供了一种在 推理 与 精度 两方面评估模型的新方式,鼓励社区构建更具认知能力的运动系统。
局限性与未来工作
- 硬件依赖:训练数据依赖高精度手部追踪器;在普通 RGB‑only 设置上扩展可能会引入噪声。
- 时间视野:当前预测覆盖最长 2 秒;更长期的规划(例如多步骤任务)仍未探索。
- 物体动力学:模型假设物体是静止的;处理可变形或运动的物体需要结合物理模拟器。
- 语言范围:问答对是经过策划的;扩展到自由形式的自然语言指令可以提升适用性。
未来的研究方向包括与深度/IMU 传感器的多模态融合、用于复杂任务序列的层次化规划,以及开放域语言落地,以实现真正的对话式系统。
作者
- Mingfei Chen
- Yifan Wang
- Zhengqin Li
- Homanga Bharadhwaj
- Yujin Chen
- Chuan Qin
- Ziyi Kou
- Yuan Tian
- Eric Whitmire
- Rajinder Sodhi
- Hrvoje Benko
- Eli Shlizerman
- Yue Liu
论文信息
- arXiv ID: 2512.16907v1
- 分类: cs.CV, cs.AI, cs.RO
- 发布: 2025年12月18日
- PDF: 下载 PDF