[Paper] CoMoVi：3D 人体动作与真实视频的协同生成

发布: 3周前 (2026年1月16日 GMT+8 01:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10632v1

概述

本文介绍了 CoMoVi，一个新颖的框架，可同时生成逼真的 3D 人体动作序列及其对应的 2‑D 视频渲染。通过将动作扩散模型与视频扩散模型紧密耦合，作者展示了这两项生成任务可以相互强化，从而产生比单独处理时更合理、时间上更一致的人体化身。

Co‑generative diffusion architecture: 一个双分支扩散模型，在单个循环中共同去噪3‑D动作和视频帧，实现相互条件。
2‑D motion representation for video priors: 将3‑D关节轨迹紧凑投影到图像平面，可直接供预训练视频扩散模型使用。
Cross‑modal attention mechanisms: 3‑D‑2‑D跨注意力层，使动作特征影响视频合成，反之亦然，保持运动学一致性。
CoMoVi Dataset: 一个精心策划的大规模真实人类视频集合，带有文本描述和3‑D动作捕捉数据，涵盖多种动作和环境。
State‑of‑the‑art results: 实验评估显示在动作质量（如更低的MPJPE、更高的多样性）和视频真实感（如更高的FVD/IS分数）上均优于解耦基线。

动作编码
- 将原始 3‑D 关节位置投影到类似热图的 2‑D 表示（类似姿态骨架图像），保留空间关系，同时兼容基于图像的扩散模型。
双分支扩散
- 实例化两个并行的扩散流：一个用于 2‑D 动作表示，另一个用于 RGB 视频帧。
- 在每个去噪时间步，相互特征交互层在流之间交换潜在嵌入。
- 3‑D‑2‑D 交叉注意力模块将动作 token 与视频 token 对齐，确保生成的像素遵循底层骨骼运动。
训练
- 模型在 CoMoVi 数据集上端到端训练，使用标准的扩散损失（噪声预测）加上辅助一致性损失，以惩罚从 2‑D 表示反投影得到的重建 3‑D 姿态与真实运动之间的不匹配。
推理
- 给定文本提示（或种子动作），扩散过程在一次前向传播中生成同步的动作轨迹和视频帧，消除后期重新定位或渲染管线的需求。

总体而言，CoMoVi 展示了一条有前景的方向：生成式视频模型与三维运动合成不再是孤立的模块，而是协同的伙伴，为开发者生态系统中的内容创作和合成数据生成打开了新途径。