[Paper] OmniView:全视扩散模型用于 3D 和 4D 视图合成
Source: arXiv - 2512.10940v1
概览
OmniView 是一个 单一扩散模型,能够生成一致的 3‑D 场景和 4‑D 视频,并为开发者提供对相机运动、时间和视觉提示的细粒度控制。通过解耦空间、时间和视角条件的表示,作者展示了一个网络即可处理广泛的任务——从静态或动态输入的全新视角合成、轨迹外推,到基于文本或图像的任意相机路径视频创作——无需为每个任务单独训练模型。
关键贡献
- 统一的 4‑D 扩散框架,共同学习空间、时间和视角条件,消除了对多个专用模型的需求。
- 模块化条件表示:场景几何、运动和相机姿态分别使用独立嵌入,可任意组合(例如,静态图像 + 动态相机、视频 + 新视角)。
- 在多个基准套件上实现最先进性能,相较专用基线提升最高达 33 %(LLFF 多视角 NVS)、 60 %(Neural 3D Video 动态 NVS)和 20 %(RE‑10K 静态相机控制)。
- 相机轨迹误差显著降低(约 4 倍)在文本条件视频生成中,证明对用户指定运动的更好遵循。
- 开源发布 代码、预训练权重和交互式演示,促进快速采纳与进一步研究。
方法论
OmniView 基于潜在扩散架构,但引入了三条正交的条件流:
| 条件 | 编码内容 | 输入模型方式 |
|---|---|---|
| 空间 | 3‑D 几何或静态场景布局(如深度图、点云) | 作为与潜在图像网格对齐的空间 token 序列嵌入。 |
| 时间 | 时序动态(帧索引、运动向量) | 通过正弦时间嵌入注入,类似于视频扩散模型。 |
| 视角 | 相机姿态(位置、方向、焦距) | 表示为 6‑DoF 向量,投射到学习得到的视角嵌入空间。 |
在训练期间,模型从 异构 4‑D 数据集 中随机抽取 (空间, 时间, 视角) 三元组,该数据集混合了静态多视角捕获、动态场景和文本到视频片段。扩散损失按常规计算,但条件 token 与潜在图像 token 进行拼接,使 UNet 能在推理时关注任意子集的条件。
由于三种条件是 相互独立 的,同一网络可以在任意组合下使用:
- 静态 → 新视角:提供空间 + 目标视角,时间留空。
- 动态 → 新视角:提供空间 + 时间 + 目标视角。
- 文本 → 视频 + 相机:提供文本提示 + 视角轨迹,可选提供种子帧用于风格引导。
作者还引入了 轨迹一致性正则项,对预测的相机姿态嵌入与真实轨迹之间的偏差进行惩罚,这是轨迹误差显著降低的关键因素。
结果与发现
| 基准 | 任务 | OmniView 与最佳专用模型对比 | 指标提升 |
|---|---|---|---|
| LLFF(多视角 NVS) | 静态多视角输入的全新视角合成 | PSNR ↑ 33 % | 重建更高保真度,边缘更锐利 |
| Neural 3D Video | 动态场景 NVS(移动物体) | PSNR ↑ 60 % | 更好地处理运动模糊和遮挡 |
| RE‑10K | 静态相机控制(单图像 → 视频) | PSNR ↑ 20 % | 时间一致性更平滑 |
| 文本到视频(相机控制) | 遵循用户指定轨迹 | 轨迹误差 ↓ 4× | 视频更忠实地沿预定路径运动 |
从定性上看,OmniView 生成的视频 相机运动自然,即使底层场景仅来源于单张图像或短片段。模型还展示了 零样本泛化 能力:只需提供深度估计和新姿态,即可为从未见过的场景合成全新视角。
实际意义
- 快速原型化 AR/VR 内容——开发者只需少量参考图像或短视频,即可即时生成带自定义相机路径的沉浸式 360° 体验。
- 自动化视频编辑——将 OmniView 融入工作流,可重新构图已有素材、创建平滑的推拉镜头,或为稳像生成缺失帧。
- 游戏资产生成——从概念艺术生成一致的精灵表或过场视频,降低手工动画工作量。
- 内容审查与合成数据——生成多样的、受相机控制的合成数据集,用于训练感知模型(如自动驾驶),无需手工制作多种场景变体。
- 创意工具——接入文本到视频编辑器(如 Runway、Adobe),为艺术家提供精准的相机编排控制,同时保持扩散生成的高视觉质量。
由于模型 单一且通用,且在标准 GPU(作者报告在 RTX 3090 上 512×512 视频生成约 2 fps)上即可运行,将其集成到现有工作流的成本远低于维护一套专用模型。
局限性与未来工作
- 训练数据偏差——模型继承混合 4‑D 数据集的分布;非常规相机装置或极端光照仍可能出现伪影。
- 分辨率上限——当前实验最高 512×512;要实现 4K 视频需要内存高效的扩散技巧或级联上采样。
- 实时交互——虽然离线生成已相对快速,但真正的实时控制(如现场 AR)仍未实现。
- 显式几何——OmniView 将深度视作辅助条件;未来可结合学习的 3‑D 表示(NeRF 风格)以提升几何一致性。
- 更广模态条件——将条件框架扩展至音频、触觉或语义图,可解锁更丰富的多模态合成。
作者计划探索 更大、更多样的训练语料、高效的扩散采样器,以及 与神经渲染管线的紧耦合,以推动通用 4‑D 生成的边界。
作者
- Xiang Fan
- Sharath Girish
- Vivek Ramanujan
- Chaoyang Wang
- Ashkan Mirzaei
- Petr Sushko
- Aliaksandr Siarohin
- Sergey Tulyakov
- Ranjay Krishna
论文信息
- arXiv ID: 2512.10940v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025 年 12 月 11 日
- PDF: Download PDF