[Paper] CoMoVi:3D 人体动作与真实视频的协同生成
发布: (2026年1月16日 GMT+8 01:52)
7 min read
原文: arXiv
Source: arXiv - 2601.10632v1
概述
本文介绍了 CoMoVi,一个新颖的框架,可同时生成逼真的 3D 人体动作序列及其对应的 2‑D 视频渲染。通过将动作扩散模型与视频扩散模型紧密耦合,作者展示了这两项生成任务可以相互强化,从而产生比单独处理时更合理、时间上更一致的人体化身。
关键贡献
- Co‑generative diffusion architecture: 一个双分支扩散模型,在单个循环中共同去噪3‑D动作和视频帧,实现相互条件。
- 2‑D motion representation for video priors: 将3‑D关节轨迹紧凑投影到图像平面,可直接供预训练视频扩散模型使用。
- Cross‑modal attention mechanisms: 3‑D‑2‑D跨注意力层,使动作特征影响视频合成,反之亦然,保持运动学一致性。
- CoMoVi Dataset: 一个精心策划的大规模真实人类视频集合,带有文本描述和3‑D动作捕捉数据,涵盖多种动作和环境。
- State‑of‑the‑art results: 实验评估显示在动作质量(如更低的MPJPE、更高的多样性)和视频真实感(如更高的FVD/IS分数)上均优于解耦基线。
方法论
-
动作编码
- 将原始 3‑D 关节位置投影到类似热图的 2‑D 表示(类似姿态骨架图像),保留空间关系,同时兼容基于图像的扩散模型。
-
双分支扩散
- 实例化两个并行的扩散流:一个用于 2‑D 动作表示,另一个用于 RGB 视频帧。
- 在每个去噪时间步,相互特征交互层在流之间交换潜在嵌入。
- 3‑D‑2‑D 交叉注意力模块将动作 token 与视频 token 对齐,确保生成的像素遵循底层骨骼运动。
-
训练
- 模型在 CoMoVi 数据集上端到端训练,使用标准的扩散损失(噪声预测)加上辅助一致性损失,以惩罚从 2‑D 表示反投影得到的重建 3‑D 姿态与真实运动之间的不匹配。
-
推理
- 给定文本提示(或种子动作),扩散过程在一次前向传播中生成同步的动作轨迹和视频帧,消除后期重新定位或渲染管线的需求。
结果与发现
| 指标 | 动作生成 (CoMoVi) | 先前仅动作扩散 |
|---|---|---|
| MPJPE (mm) | 28.4 | 35.7 |
| 多样性 (Std) | 1.12 | 0.84 |
| FVD(越低越好) | 78.3 | 112.5 |
| IS(越高越好) | 12.6 | 9.4 |
- 更高的保真度:相较于最先进的仅动作模型,关节扩散将关节位置误差降低约 20 %。
- 更好的视频真实感:Fréchet Video Distance 显著提升,表明时间伪影更少,光照/纹理更自然。
- 跨模态一致性:定性示例显示,四肢在视频中从不“脱离”身体,这是单独生成动作和视频时常见的失败。
- 泛化能力:得益于预训练视频扩散骨干的强先验,模型能够成功处理未见过的动作类别(如跑酷、舞蹈)。
实际意义
- 游戏与 VR 内容管线:开发者可以实时生成高质量的角色动画和相应的剪辑,降低对昂贵动作捕捉的依赖。
- 用于训练的合成数据:CoMoVi 能生成配对的视频‑动作数据集,用于姿态估计、动作识别或需要真实视觉反馈的强化学习代理等下游任务。
- AR/元宇宙快速原型:设计师只需输入文字描述(例如“一个人在海滩上做后空翻”),即可瞬间获得同步的 3‑D 动画和视频预览,加速概念迭代。
- 电影与广告:自动生成在人群或背景中的人物动作,并在摄像机移动时保持一致,省去手动抠像和关键帧的工作。
限制与未来工作
- 分辨率与细节:当前实现聚焦于 256×256 视频帧;生产级资产需要更高分辨率的输出。
- 复杂交互:模型仅处理单个人体主体;扩展到多人场景或与物体的交互仍是一个未解决的挑战。
- 物理合理性:虽然运动学一致性有所提升,扩散过程并未强制动力学(例如地面反作用力),这可能导致细微的物理违背。
- 数据集偏差:CoMoVi 数据集虽具多样性,但仍偏向户外、光照良好的场景;未来工作可加入室内、低光和遮挡环境。
总体而言,CoMoVi 展示了一条有前景的方向:生成式视频模型与三维运动合成不再是孤立的模块,而是协同的伙伴,为开发者生态系统中的内容创作和合成数据生成打开了新途径。
作者
- Chengfeng Zhao
- Jiazhi Shu
- Yubo Zhao
- Tianyu Huang
- Jiahao Lu
- Zekai Gu
- Chengwei Ren
- Zhiyang Dou
- Qing Shuai
- Yuan Liu
论文信息
- arXiv ID: 2601.10632v1
- 分类: cs.CV
- 出版日期: 2026年1月15日
- PDF: Download PDF