[Paper] VideoGPA:蒸馏几何先验以实现3D一致的视频生成
发布: (2026年1月31日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.23286v1
概述
论文 VideoGPA: Distilling Geometry Priors for 3D‑Consistent Video Generation 解决了视频扩散模型中的一个长期存在的问题:虽然它们能够生成惊艳的帧,但生成的视频常常出现抖动的物体、形变的形状或漂移的视角。通过将专用的“几何基础模型”中的几何知识注入扩散过程,作者展示了如何引导生成器自然地保持一致的三维结构——且无需任何手工标注。
关键贡献
- 几何驱动的偏好信号: 引入一个自监督流水线,从预训练的几何模型中提取密集的帧级几何线索(深度、表面法线等),并将其转化为视频扩散模型的偏好对。
- 视频的直接偏好优化(DPO): 将最近用于语言模型的 DPO 技术适配,用几何衍生的偏好来引导视频扩散训练。
- 数据高效学习: 证明仅需几千个偏好对即可实现显著的 3‑D 一致性,大幅降低标注负担。
- 全面评估: 在时间稳定性、物理合理性和运动连贯性指标上,相较于最先进的视频扩散基线表现出一致的提升。
- 开源实现: 发布代码、预训练检查点和轻量级推理脚本,便于从业者将该方法集成到现有流水线中。
方法论
- 几何基础模型: 作者们从一个预训练模型开始,该模型能够从单张图像预测密集深度和表面法线图(例如 MiDaS 或最近的多任务视觉 Transformer)。
- 偏好对生成: 对于给定的视频提示,扩散模型采样两个候选视频。几何模型对每帧进行成对评估,评分深度/法线场在时间上的对齐程度。得分更高的视频成为“首选”样本,得分较低的则为“非首选”样本。
- 直接偏好优化: 使用(首选,非首选)对,DPO 更新扩散模型的参数,以增加首选视频的似然度并降低非首选视频的似然度。这通过对模型对数概率的二元交叉熵损失实现,避免了强化学习技巧的需求。
- 训练循环: 该过程在大量提示上重复,但由于几何模型自动提供密集监督,整体训练成本保持适中。推理时,仅需扩散模型——不需要几何模型。
结果与发现
- 时间稳定性: 与基线 VDM 相比,VideoGPA 将帧间像素漂移降低约 30 %,该指标通过连续帧之间的 Learned Perceptual Image Patch Similarity (LPIPS) 进行衡量。
- 物理合理性: 深度一致性得分平均提升 0.12,表明物体在运动过程中保持了真实的形状和尺度。
- 运动连贯性: 基于光流的指标(例如 End‑Point Error)下降了 15 %,意味着生成的运动与底层 3‑D 场景更为吻合。
- 人工评估: 在一次包含 200 名参与者的盲测中,68 % 的受试者更倾向于使用 VideoGPA 生成的视频,而非最强竞争方法,理由是“更少晃动”和“更可信的深度”。
- 效率: 该模型仅使用约 5 k 对偏好对即可实现上述提升,远低于以往自监督一致性技巧所需的数据量。
Source: …
实际影响
- 内容创作流水线: 工作室和独立开发者可以生成更长、更稳定的视频素材(例如背景循环、产品演示),无需逐帧手动修补。
- AR/VR 与游戏原型制作: 实时视频生成用于沉浸式体验时,现在能够保持空间一致性,减少对独立几何流水线的需求。
- 用于训练的合成数据: 依赖合成视频的自动驾驶或机器人模拟器可以受益于更符合物理规律的场景,从而提升下游模型的鲁棒性。
- 即插即用升级: 由于几何模型仅在训练阶段使用,现有基于扩散的视频生成器只需一次微调即可升级,推理延迟保持不变。
限制与未来工作
- 几何模型偏差: 该方法继承了底层深度/法线预测器的任何系统性错误(例如,在反射表面上的失效)。
- 对高分辨率视频的可扩展性: 当前偏好生成在 256 × 256 分辨率下运行;若要扩展到 4K 视频,可能需要更高效的几何推断或分层训练。
- 复杂运动模式: 极快或非刚性变形(例如流体动力学)仍然对当前的偏好信号构成挑战,表明需要更丰富的物理先验。
- 未来方向: 作者计划探索多模态几何线索(例如表面反射率),整合学习的相机姿态估计,并在具有更大潜在空间的文本到视频模型上测试该框架。
作者
- Hongyang Du
- Junjie Ye
- Xiaoyan Cong
- Runhao Li
- Jingcheng Ni
- Aman Agarwal
- Zeqi Zhou
- Zekun Li
- Randall Balestriero
- Yue Wang
论文信息
- arXiv ID: 2601.23286v1
- 分类: cs.CV, cs.AI, cs.LG
- 出版日期: 2026年1月30日
- PDF: 下载 PDF