[Paper] UnityVideo:统一多模态多任务学习以提升世界感知视频生成

发布: (2025年12月9日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.07831v1

概览

UnityVideo 解决了当前视频生成模型的一个核心缺陷:它们通常只基于单一模态(例如文本或单一视觉线索)进行条件化,这限制了它们对物理世界的理解和遵循能力。通过同时学习 分割掩码、人体骨架、DensePose、光流和深度图,作者提出了一个统一的“世界感知”视频生成器,能够生成更连贯、物理上更合理的画面,并在未见场景上具有更好的泛化能力。

关键贡献

  • 统一的多模态框架:在训练期间同时输入五种互补的视觉模态。
  • 动态噪声方案:将异构的训练目标(扩散、重建等)统一到单一优化流程中。
  • 模态切换器 + 上下文学习器:一个轻量级控制器,能够在不复制参数的情况下为每种模态动态重新配置主干网络。
  • 大规模统一数据集(约 1.3 M 视频片段,配有对齐的多模态标注),已向社区公开。
  • 实验提升:收敛更快、视频保真度更高、时序一致性更强,对分布外视频的零样本性能显著提升。

方法论

  1. 数据统一 – 作者收集了一个庞大的语料库,使每个视频帧都配有分割、姿态、DensePose、光流和深度图。这构成了模型可以关注的“多模态画布”。
  2. 动态噪声 – 与为每种模态训练独立的扩散过程不同,他们以模态感知的方式注入噪声,使单一去噪网络能够从噪声版本中重建任意五种信号。
  3. 模态切换器 – 一个小型门控模块接收 one‑hot 模态标记,并生成一组缩放向量(类似 FiLM 层)。这些向量调制主 transformer/UNet 主干,有效地将同一网络转变为针对所请求模态的专家。
  4. 上下文学习器 – 推理时,向切换器输入一个由少量示例帧(及其模态)组成的简短“提示”,使模型能够即时适配生成风格(例如在驾驶场景中优先保证深度一致性)。
  5. 联合优化 – 所有模态共享同一损失主干(扩散重建损失、感知损失和运动一致性损失的组合)。统一目标迫使网络学习跨模态关联(如 depth ↔ optical flow),提升世界推理能力。

结果与发现

指标(数值越高越好)基线(单模态)UnityVideo
FVD(Fréchet Video Distance)210138
时序一致性(TC‑Score)0.710.84
零样本泛化(在未见域上)0.620.78
收敛周期(达到最终质量 90 %)300180
  • 视觉质量:样例显示纹理更锐利,闪烁伪影更少,人体运动更准确(骨架与生成的身体保持对齐)。
  • 物理合理性:深度感知的生成遵守遮挡关系;光流一致性降低了快速移动物体时的“幽灵”现象。
  • 零样本鲁棒性:在全新数据集(例如水下影像)上评估时,UnityVideo 的保真度仍高于仅基于文本的扩散模型,验证了多模态 grounding 能够提供更好的世界模型。

实际意义

  • 游戏与 VR 内容流水线 – 开发者可以生成自动遵守场景几何和角色骨架的过场动画或背景循环,减少手动关键帧工作。
  • 感知任务的合成数据 – 自动驾驶系统需要对齐的视频、深度和光流;UnityVideo 能生成无限量、物理一致的训练数据,加速仿真到真实的迁移。
  • 快速原型化视觉特效 – VFX 艺术家只需提供粗略的姿态或分割掩码,模型即可填充真实的运动和光照,大幅缩短迭代周期。
  • 跨模态编辑工具 – 由于同一主干可以随时切换,用户界面可以让使用者在“编辑深度”“调整姿态”“细化光流”等模式之间切换,而无需重新训练独立模型。

局限性与未来工作

  • 计算成本 – 在 1.3 M 多模态片段上进行联合训练仍需多 GPU 集群;推理延迟高于单模态扩散模型。
  • 模态覆盖 – 当前集合未包含音频、文本或高级场景图等模态,这些可能进一步丰富世界理解。
  • 域偏差 – 数据集偏向室内和城市场景;在高度随机的领域(如人群、流体仿真)上的表现仍需探索。

未来方向包括将模态切换器扩展至 音视频 融合、为 实时生成 优化架构,以及研究 自监督模态发现 以降低对昂贵标注的依赖。


UnityVideo 表明,当我们让多种视觉信号相互交流时,真正的“世界感知”视频生成器已经触手可及。对于渴望利用遵循物理与几何的 AI 生成运动的开发者而言,公开的代码和数据集提供了构建下一代内容创作工具的坚实基础。

作者

  • Jiehui Huang
  • Yuechen Zhang
  • Xu He
  • Yuan Gao
  • Zhi Cen
  • Bin Xia
  • Yan Zhou
  • Xin Tao
  • Pengfei Wan
  • Jiaya Jia

论文信息

  • arXiv ID: 2512.07831v1
  • 分类: cs.CV
  • 发布日期: 2025 年 12 月 8 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »