[Paper] CoMoVi:3D 人体动作与真实视频的协同生成

发布: (2026年1月16日 GMT+8 01:52)
7 min read
原文: arXiv

Source: arXiv - 2601.10632v1

概述

本文介绍了 CoMoVi,一个新颖的框架,可同时生成逼真的 3D 人体动作序列及其对应的 2‑D 视频渲染。通过将动作扩散模型与视频扩散模型紧密耦合,作者展示了这两项生成任务可以相互强化,从而产生比单独处理时更合理、时间上更一致的人体化身。

关键贡献

  • Co‑generative diffusion architecture: 一个双分支扩散模型,在单个循环中共同去噪3‑D动作和视频帧,实现相互条件。
  • 2‑D motion representation for video priors: 将3‑D关节轨迹紧凑投影到图像平面,可直接供预训练视频扩散模型使用。
  • Cross‑modal attention mechanisms: 3‑D‑2‑D跨注意力层,使动作特征影响视频合成,反之亦然,保持运动学一致性。
  • CoMoVi Dataset: 一个精心策划的大规模真实人类视频集合,带有文本描述和3‑D动作捕捉数据,涵盖多种动作和环境。
  • State‑of‑the‑art results: 实验评估显示在动作质量(如更低的MPJPE、更高的多样性)和视频真实感(如更高的FVD/IS分数)上均优于解耦基线。

方法论

  1. 动作编码

    • 将原始 3‑D 关节位置投影到类似热图的 2‑D 表示(类似姿态骨架图像),保留空间关系,同时兼容基于图像的扩散模型。
  2. 双分支扩散

    • 实例化两个并行的扩散流:一个用于 2‑D 动作表示,另一个用于 RGB 视频帧。
    • 在每个去噪时间步,相互特征交互层在流之间交换潜在嵌入。
    • 3‑D‑2‑D 交叉注意力模块将动作 token 与视频 token 对齐,确保生成的像素遵循底层骨骼运动。
  3. 训练

    • 模型在 CoMoVi 数据集上端到端训练,使用标准的扩散损失(噪声预测)加上辅助一致性损失,以惩罚从 2‑D 表示反投影得到的重建 3‑D 姿态与真实运动之间的不匹配。
  4. 推理

    • 给定文本提示(或种子动作),扩散过程在一次前向传播中生成同步的动作轨迹和视频帧,消除后期重新定位或渲染管线的需求。

结果与发现

指标动作生成 (CoMoVi)先前仅动作扩散
MPJPE (mm)28.435.7
多样性 (Std)1.120.84
FVD(越低越好)78.3112.5
IS(越高越好)12.69.4
  • 更高的保真度:相较于最先进的仅动作模型,关节扩散将关节位置误差降低约 20 %。
  • 更好的视频真实感:Fréchet Video Distance 显著提升,表明时间伪影更少,光照/纹理更自然。
  • 跨模态一致性:定性示例显示,四肢在视频中从不“脱离”身体,这是单独生成动作和视频时常见的失败。
  • 泛化能力:得益于预训练视频扩散骨干的强先验,模型能够成功处理未见过的动作类别(如跑酷、舞蹈)。

实际意义

  • 游戏与 VR 内容管线:开发者可以实时生成高质量的角色动画和相应的剪辑,降低对昂贵动作捕捉的依赖。
  • 用于训练的合成数据:CoMoVi 能生成配对的视频‑动作数据集,用于姿态估计、动作识别或需要真实视觉反馈的强化学习代理等下游任务。
  • AR/元宇宙快速原型:设计师只需输入文字描述(例如“一个人在海滩上做后空翻”),即可瞬间获得同步的 3‑D 动画和视频预览,加速概念迭代。
  • 电影与广告:自动生成在人群或背景中的人物动作,并在摄像机移动时保持一致,省去手动抠像和关键帧的工作。

限制与未来工作

  • 分辨率与细节:当前实现聚焦于 256×256 视频帧;生产级资产需要更高分辨率的输出。
  • 复杂交互:模型仅处理单个人体主体;扩展到多人场景或与物体的交互仍是一个未解决的挑战。
  • 物理合理性:虽然运动学一致性有所提升,扩散过程并未强制动力学(例如地面反作用力),这可能导致细微的物理违背。
  • 数据集偏差:CoMoVi 数据集虽具多样性,但仍偏向户外、光照良好的场景;未来工作可加入室内、低光和遮挡环境。

总体而言,CoMoVi 展示了一条有前景的方向:生成式视频模型与三维运动合成不再是孤立的模块,而是协同的伙伴,为开发者生态系统中的内容创作和合成数据生成打开了新途径。

作者

  • Chengfeng Zhao
  • Jiazhi Shu
  • Yubo Zhao
  • Tianyu Huang
  • Jiahao Lu
  • Zekai Gu
  • Chengwei Ren
  • Zhiyang Dou
  • Qing Shuai
  • Yuan Liu

论文信息

  • arXiv ID: 2601.10632v1
  • 分类: cs.CV
  • 出版日期: 2026年1月15日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »