[论文] 高效相机控制的静态场景视频生成:稀疏扩散与3D渲染

发布: (2026年1月15日 GMT+8 02:50)
6 min read
原文: arXiv

Source: arXiv - 2601.09697v1

(请提供需要翻译的正文内容,我将为您翻译成简体中文。)

Overview

本文介绍了 SRENDER,这是一种新管线,可将少量扩散生成的关键帧转换为静态场景的全长、相机控制视频。通过从这些关键帧重建 3‑D 表示并渲染缺失的帧,作者实现了 >40× 加速 相比纯扩散视频模型,同时保持视觉质量和时间一致性——这是实现 VR/AR、机器人和交互媒体实时生成视频的重要一步。

关键贡献

  • 稀疏关键帧生成:仅在少量自适应帧上使用扩散模型,而不是视频中的每一帧。
  • 3‑D 提升与渲染:将关键帧转换为统一的 3‑D 场景(NeRF‑style 表示),并渲染中间视点以填充视频。
  • 自适应关键帧预测器:轻量网络估计给定相机轨迹所需的关键帧数量,在运动复杂的地方分配计算资源。
  • 速度‑效率突破:相较于最先进的扩散视频基线,实现了 20‑秒剪辑生成速度提升 >40×,感知质量相当。
  • 设计上的时间一致性:几何重建强制全场景一致性,消除帧‑帧扩散常见的闪烁问题。

方法论

  1. 输入 – 静态场景描述和期望的相机路径(例如,6 自由度轨迹)。
  2. 关键帧选择 – 自适应预测器决定捕获运动复杂性所需的最少帧数。
  3. 扩散生成 – 预训练的文本到图像扩散模型(例如 Stable Diffusion)在相机姿态的条件下合成这些关键帧。
  4. 三维重建 – 将关键帧输入稀疏神经辐射场(NeRF),学习场景的紧凑三维表示。由于只使用少量视角,训练快速且占用内存少。
  5. 渲染 – 在每个中间相机姿态查询 NeRF,生成缺失帧,从而得到平滑视频。
  6. 后处理 – 可选的精细化(例如深度感知的上采样)清除伪影并对齐帧间颜色。

整个管线是模块化的:任何扩散模型都可以替换,三维渲染器也可以换成其他视图合成技术,便于开发者使用。

Results & Findings

MetricDiffusion‑only baselineSRENDER (sparse keyframes)
Generation time (20 s video)~30 min (GPU)~45 s (GPU)
FVD (Frechet Video Distance)210225 (≈7% drop)
Temporal stability (t‑LPIPS)0.120.09 (better)
User study (visual fidelity)84 % preferred81 % preferred
  • 速度:40 倍的加速来自于将大量的扩散计算摊销到数百帧渲染上。
  • 质量:虽然 FVD 略有上升,但由于共享的 3‑D 几何信息,时间稳定性显著提升。
  • 适应性:对于简单的线性平移,仅需 3–4 帧关键帧;对于不规则轨迹,预测器会将帧数提升至约 12,仍远少于逐帧扩散的需求。

Practical Implications

  • 实时 VR/AR 内容创作 – 开发者可以在用户头部运动时即时生成视频背景,无需预先渲染每个角度。
  • 具身 AI 仿真 – 机器人可以即时请求新视角的场景可视化,适用于规划和感知研究。
  • 交互式媒体与游戏 – 程序化的过场动画或电影回放可以按需合成,降低存储需求。
  • 成本降低 – 更少的 GPU 时长意味着更便宜的云推理,使生成视频服务在经济上更具可行性。
  • 即插即用 – 由于 SRENDER 基于现有的扩散检查点构建,团队可以在无需重新训练大型视频扩散模型的情况下采用它。

限制与未来工作

  • Static‑scene assumption: 不处理移动物体或动态光照;扩展到动态场景需要时间三维模型。
  • NeRF scalability: 非常大或高度细致的环境可能需要更复杂的场景网格或混合表示,以保持渲染速度。
  • Keyframe predictor bias: 预测器在有限的轨迹集上训练;异常的相机运动仍可能需要比预期更多的关键帧。
  • Resolution ceiling: 当前实验聚焦于 256×256–512×512 输出;要扩展到 4K 视频需要优化的渲染管线。

未来的研究方向包括集成 dynamic NeRFs、探索 diffusion‑guided mesh reconstruction,以及构建 end‑to‑end trainable pipelines,共同优化关键帧选择和 3‑D 表示,以实现更紧凑的速度‑质量权衡。

作者

  • Jieying Chen
  • Jeffrey Hu
  • Joan Lasenby
  • Ayush Tewari

论文信息

  • arXiv ID: 2601.09697v1
  • 类别: cs.CV
  • 出版日期: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »