[Paper] SpaceTimePilot: 生成式渲染跨时空的动态场景

发布: 1个月前 (2026年1月1日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.25075v1

Overview

SpaceTimePilot 是一种新的视频扩散模型，能够在动态场景中 分离并独立控制相机视角和运动。只需提供单个单目视频，系统即可从任意角度以及任意所需的运动时间线重新渲染同一场景，实现对空间和时间的连续、按需探索。

Diffusion backbone – 模型基于标准的视频扩散管线（U‑Net 加注意力），但在潜在空间中加入了两个条件流：
- Camera pose embedding（3‑D 外参），用于告诉网络虚拟摄像机应位于何处。
- Animation time embedding，用于编码运动时间线中的目标时刻（例如，“原始动作的第 5 帧” 与 “第 20 帧”）。
Temporal‑warping supervision – 由于没有真实数据集提供以多种速度拍摄的相同动态场景，作者使用多视角静态捕获，应用基于光流的合成扭曲来产生伪时间变化，并训练模型在这些扭曲序列之间进行映射。
CamxTime synthetic data – 使用图形引擎渲染场景，提供完全可控的摄像机路径和对象动画，生成覆盖每种视角和时间组合的配对视频片段。该数据集为学习完美的时空解耦提供了干净的信号。
Joint training – 模型在扭曲的真实世界片段和 CamxTime 合成渲染的混合数据上进行训练，以在真实感（来自真实 footage）和精确控制（来自合成数据）之间取得平衡。
Inference – 在测试时，用户提供：
- 一个源视频（“参考” 动态）。
- 目标摄像机轨迹（例如，360° 环绕）。
- 目标时间安排（例如，慢动作、加速或任意逐帧映射）。
  扩散过程随后生成一个同时遵循这两个输入的新视频。

定量：在标准视频生成指标（FID、LPIPS）上，模型在合成和真实世界测试集上相较最强基线提升约 15 %。
时间控制精度：通过生成运动与规定时间表的对齐度衡量，SpaceTimePilot 在 CamxTime 上的平均绝对误差 < 0.05 s，表明同步紧密。
空间保真度：视点变化产生一致的几何和光照，相比仅在几帧后支持相机变化的先前方法，SSIM 提升 0.8。
用户研究：被要求编辑视频视点和速度的开发者给出 4.2/5 的平均满意度评分，称“直观的控制”和“高视觉质量”。

时间真实感 – 基于扭曲的监督在源运动高度非线性（例如快速运动）时可能引入细微伪影，限制了完美慢动作的保真度。
对未见动态的泛化能力 – 当源运动与训练期间见到的模式相似时模型表现最佳；异常或高度随机的运动可能会降低质量。
计算成本 – 与大多数扩散模型类似，推理仍然相对耗费资源（在单个 GPU 上每秒视频需要数秒），这可能阻碍实时应用。
作者提出的未来方向 包括：整合运动感知先验（例如光流一致性）、优化扩散调度以加快采样速度，以及扩展合成数据集以覆盖更复杂的物理交互（流体动力学、可变形物体）。