[论文] 高效相机控制的静态场景视频生成：稀疏扩散与3D渲染

发布: 3周前 (2026年1月15日 GMT+8 02:50)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.09697v1

（请提供需要翻译的正文内容，我将为您翻译成简体中文。）

Overview

本文介绍了 SRENDER，这是一种新管线，可将少量扩散生成的关键帧转换为静态场景的全长、相机控制视频。通过从这些关键帧重建 3‑D 表示并渲染缺失的帧，作者实现了 >40× 加速 相比纯扩散视频模型，同时保持视觉质量和时间一致性——这是实现 VR/AR、机器人和交互媒体实时生成视频的重要一步。

关键贡献

稀疏关键帧生成：仅在少量自适应帧上使用扩散模型，而不是视频中的每一帧。
3‑D 提升与渲染：将关键帧转换为统一的 3‑D 场景（NeRF‑style 表示），并渲染中间视点以填充视频。
自适应关键帧预测器：轻量网络估计给定相机轨迹所需的关键帧数量，在运动复杂的地方分配计算资源。
速度‑效率突破：相较于最先进的扩散视频基线，实现了 20‑秒剪辑生成速度提升 >40×，感知质量相当。
设计上的时间一致性：几何重建强制全场景一致性，消除帧‑帧扩散常见的闪烁问题。

方法论

输入 – 静态场景描述和期望的相机路径（例如，6 自由度轨迹）。
关键帧选择 – 自适应预测器决定捕获运动复杂性所需的最少帧数。
扩散生成 – 预训练的文本到图像扩散模型（例如 Stable Diffusion）在相机姿态的条件下合成这些关键帧。
三维重建 – 将关键帧输入稀疏神经辐射场（NeRF），学习场景的紧凑三维表示。由于只使用少量视角，训练快速且占用内存少。
渲染 – 在每个中间相机姿态查询 NeRF，生成缺失帧，从而得到平滑视频。
后处理 – 可选的精细化（例如深度感知的上采样）清除伪影并对齐帧间颜色。

整个管线是模块化的：任何扩散模型都可以替换，三维渲染器也可以换成其他视图合成技术，便于开发者使用。

Results & Findings

Metric	Diffusion‑only baseline	SRENDER (sparse keyframes)
Generation time (20 s video)	~30 min (GPU)	~45 s (GPU)
FVD (Frechet Video Distance)	210	225 (≈7% drop)
Temporal stability (t‑LPIPS)	0.12	0.09 (better)
User study (visual fidelity)	84 % preferred	81 % preferred

速度：40 倍的加速来自于将大量的扩散计算摊销到数百帧渲染上。
质量：虽然 FVD 略有上升，但由于共享的 3‑D 几何信息，时间稳定性显著提升。
适应性：对于简单的线性平移，仅需 3–4 帧关键帧；对于不规则轨迹，预测器会将帧数提升至约 12，仍远少于逐帧扩散的需求。

Practical Implications

实时 VR/AR 内容创作 – 开发者可以在用户头部运动时即时生成视频背景，无需预先渲染每个角度。
具身 AI 仿真 – 机器人可以即时请求新视角的场景可视化，适用于规划和感知研究。
交互式媒体与游戏 – 程序化的过场动画或电影回放可以按需合成，降低存储需求。
成本降低 – 更少的 GPU 时长意味着更便宜的云推理，使生成视频服务在经济上更具可行性。
即插即用 – 由于 SRENDER 基于现有的扩散检查点构建，团队可以在无需重新训练大型视频扩散模型的情况下采用它。

限制与未来工作

Static‑scene assumption: 不处理移动物体或动态光照；扩展到动态场景需要时间三维模型。
NeRF scalability: 非常大或高度细致的环境可能需要更复杂的场景网格或混合表示，以保持渲染速度。
Keyframe predictor bias: 预测器在有限的轨迹集上训练；异常的相机运动仍可能需要比预期更多的关键帧。
Resolution ceiling: 当前实验聚焦于 256×256–512×512 输出；要扩展到 4K 视频需要优化的渲染管线。

未来的研究方向包括集成 dynamic NeRFs、探索 diffusion‑guided mesh reconstruction，以及构建 end‑to‑end trainable pipelines，共同优化关键帧选择和 3‑D 表示，以实现更紧凑的速度‑质量权衡。

作者

Jieying Chen
Jeffrey Hu
Joan Lasenby
Ayush Tewari

论文信息

arXiv ID: 2601.09697v1
类别: cs.CV
出版日期: 2026年1月14日
PDF: 下载 PDF

[论文] 高效相机控制的静态场景视频生成：稀疏扩散与3D渲染

Overview

关键贡献

方法论

Results & Findings

Practical Implications

限制与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] ReScene4D：针对演化的室内3D场景的时间一致语义实例分割

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性