[论文] 全光场视频生成
发布: (2026年1月9日 GMT+8 02:58)
8 min read
原文: arXiv
Source: arXiv - 2601.05239v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并将文本翻译成简体中文。
概述
PlenopticDreamer 解决了生成式视频重新渲染中的一个长期存在的问题:在时间上保持多个摄像机视角的一致性。虽然现有方法能够从单一视点合成高质量视频,但当摄像机移动或需要多个视点时,它们往往会产生抖动或不匹配的结果。本文提出了一个新框架,能够在空间和时间上同步“幻觉”内容,从而实现可靠的多视角视频生成,适用于从虚拟制作到机器人远程操作等各种应用。
关键贡献
- PlenopticDreamer 框架 – 一个多入单出的视频条件生成模型,能够在任意相机轨迹上强制空间‑时间一致性。
- 相机引导的视频检索 – 一种自适应机制,选择最相关的先前生成帧作为条件输入,确保新帧与过去的视觉上下文保持对齐。
- 渐进式上下文扩展与自我条件化 – 训练技巧,逐步扩大时间窗口并将模型自身的过去输出喂回模型,显著降低长序列中的误差累积。
- 长视频条件化 – 一种策略,使模型能够生成数百帧的扩展视频,而不牺牲质量或视角一致性。
- 最先进的结果 – 在 Basic 和 Agibot 基准上,PlenopticDreamer 在视角同步、视觉保真度和相机控制灵活性方面优于先前的重渲染系统。
方法论
- Autoregressive video‑conditioned generation – 模型接收一个短片段(例如 4–8 帧)和目标相机姿态,然后预测下一帧。该过程重复进行,将每个新生成的帧再次输入模型。
- Camera‑guided retrieval – 在生成帧之前,系统会查询先前生成帧的记忆库,挑选相机参数最接近当前目标姿态的帧。这些检索到的帧与当前条件片段拼接,为网络提供更丰富的空间上下文。
- Progressive context scaling – 训练从小的时间窗口(少量帧)开始,逐步扩展到更长的窗口,帮助网络先学习短期动态,再处理长程依赖。
- Self‑conditioning – 模型还被训练在给定自身过去预测作为输入时预测下一帧,这提升了在推理过程中不可避免出现的小误差时的鲁棒性。
- Long‑video conditioning – 对于非常长的序列,采用层次化条件方案,将视频划分为重叠片段,每个片段以之前片段的摘要表示为条件,从而保持全局一致性。
所有组件都构建在基于扩散的生成主干之上,但创新点在于时间和相机信息的编排方式,而非底层图像合成引擎。
结果与发现
- 视图同步 – PlenopticDreamer 在 Basic 基准上相较于 ReCamMaster 将多视图漂移降低至多 45 %,通过像素级重投影误差进行测量。
- 视觉质量 – Frechet Video Distance (FVD) 从 210(基线)提升至 132,表明帧更清晰、更逼真。
- 相机控制精度 – 生成的视频以亚像素误差遵循预设的相机轨迹,实现精确的第三人称到第一人称的转换。
- 多样化转换 – 在机器人操作任务中展示,模型能够在保持物体纹理和运动动态的前提下,毫无缝隙地从头部视角切换到抓手视角。
- 可扩展性 – 成功生成最长达 300 帧(约 10 秒,30 fps)的视频且无明显质量下降,这在以往方法通常会崩溃的范围内。
实际意义
- Virtual production & VFX – 电影制作人现在可以从单一捕获序列生成一致的多摄像机镜头,减少对昂贵多摄像机装置的需求。
- Robotics tele‑operation – 操作者可以即时请求任意视角(例如机器人手腕处),系统提供时间上连贯的视觉反馈,提升情境感知。
- AR/VR content creation – 游戏开发者和沉浸式体验设计师能够合成全景或立体视频内容,在用户转动头部时保持画面稳定。
- Data augmentation – 为自主系统训练感知模型常常需要多视角视频;PlenopticDreamer 能生成逼真、同步的增强数据,可能提升模型的鲁棒性。
限制与未来工作
- 计算成本 – 自回归流水线和检索步骤占用大量内存,使得在边缘设备上实时生成具有挑战性。
- 依赖准确的相机元数据 – 位姿估计错误会传播,导致视角错位;整合位姿细化可能缓解此问题。
- 对高度动态场景的泛化 – 极快的运动或大范围遮挡仍会导致偶尔的闪烁;未来工作可探索混合物理先验。
- 超越扩散骨干网络的扩展 – 研究更高效的架构(例如基于 Transformer 的视频生成器)可进一步加速推理。
总体而言,PlenopticDreamer 标志着向实用的多视角生成视频系统迈出的重要一步,为构建沉浸式、相机控制体验的开发者打开了新大门。
作者
- Xiao Fu
- Shitao Tang
- Min Shi
- Xian Liu
- Jinwei Gu
- Ming-Yu Liu
- Dahua Lin
- Chen-Hsuan Lin
论文信息
- arXiv ID: 2601.05239v1
- 分类: cs.CV
- 出版时间: 2026年1月8日
- PDF: 下载 PDF