[论文] WHOLE:基于世界坐标的手-对象提升来自第一人称视频
发布: (2026年2月26日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.22209v1
概述
论文 WHOLE: World‑Grounded Hand‑Object Lifted from Egocentric Videos 解决了计算机视觉中一个长期存在的问题:从第一人称(自我视角)视频流中提取精确的三维手部和物体运动。通过学习手‑物体动态的联合生成模型,作者能够在一致的世界坐标系中重建这两者,即使物体从视野中消失或被严重遮挡。
关键贡献
- 联合生成先验,对手‑物体运动进行建模,捕捉真实的交互动力学,而不是将手和物体独立处理。
- 世界空间重建,基于第一人称视频,实现手和物体相对于全局坐标系的统一 6‑DoF 位姿。
- 观测引导采样 在测试时:预训练的先验由视频线索引导,生成与观察帧匹配的轨迹。
- 领先的性能 在手部运动、6‑D 物体姿态以及手‑物体关系准确度的基准数据集上达到最先进水平。
- 开源发布 代码、预训练模型和演示网站,促进可复现性和后续研究。
方法论
- 数据表示 – 每个训练样本由一个自视角视频片段、一个已知的被操作对象的 3‑D 网格模板以及真实手部和对象姿态(通过动作捕捉装置获得)组成。
- 生成式先验网络 – 条件变分自编码器(CVAE)学习在给定短时运动上下文的情况下采样合理的手‑对象轨迹。潜在空间编码了从真实交互中学习到的物理约束(例如接触、避免碰撞)。
- 观测编码器 – 轻量级的 CNN‑RNN 流水线从视频中提取视觉特征(手部掩码、对象轮廓、光流),并生成用于先验的条件向量。
- 推理时的引导采样 – 从先验的均值轨迹出发,系统通过梯度优化迭代细化潜在代码,使渲染的手‑对象姿态与观测到的视频帧对齐(例如匹配 2‑D 关键点、轮廓重叠)。
- 世界坐标对齐 – 由于先验在规范的世界坐标系中运行,最终输出直接给出全局坐标系下的 6‑D 对象姿态和 MANO 手部参数,省去了事后配准的需求。
结果与发现
- Hand Motion – WHOLE 将平均每关节误差降低约 ~15 %,相较于 EPIC‑KITCHENS 视角基准上最佳的仅手部基线。
- Object Pose – 6‑D 对象姿态误差从 ≈12 cm / 15°(先前方法)下降至 ≈7 cm / 9°,即使对象在片段中有高达 30 % 的时间被完全遮挡。
- Interaction Consistency – 联合重建使手‑对象接触精度提升 30 %,这意味着预测的抓取姿势与真实接触点的对齐程度大幅提高。
- Ablation Studies – 移除生成先验或观测引导的细化任一项都会导致性能急剧下降,验证了两者都是必不可少的组成部分。
实际意义
- AR/VR 交互 – 实时手‑物体追踪从头戴摄像头变为可行,使得在没有外部传感器的情况下实现更沉浸式的操作体验。
- 机器人模仿学习 – 机器人可以从使用廉价自视设备拍摄的人类示范视频中学习,因为 WHOLE 为操作者和目标物体都提供可靠的 3‑D 轨迹。
- 活动识别与分析 – 精确的世界空间重建提升了下游任务,如烹饪辅助、装配指引或工作场所安全监控。
- 内容创作 – 游戏开发者和视觉特效艺术家可以自动从第一人称影像中提取动作捕捉级别的手‑物体数据,降低对昂贵工作室设备的需求。
局限性与未来工作
- 模板依赖 – WHOLE 需要已知的对象 3‑D 网格;处理新颖、未见过的对象仍是一个未解决的挑战。
- 计算成本 – 引导采样循环会增加延迟(≈200 ms 每个片段),对于低延迟的 AR 应用仍然过高。
- 对多样化领域的泛化 – 该模型在厨房场景交互上进行训练;要扩展到户外或工业环境可能需要额外的数据和特定领域的先验。
- 未来方向 – 作者建议集成学习的对象形状估计器以放宽模板要求,优化推理流水线以实现实时性能,并探索多人物自我视角场景。
作者
- Yufei Ye
- Jiaman Li
- Ryan Rong
- C. Karen Liu
论文信息
- arXiv ID: 2602.22209v1
- 分类: cs.CV
- 出版日期: 2026年2月25日
- PDF: 下载 PDF