[Paper] Spatia:可更新空间记忆的视频生成
发布: (2025年12月18日 GMT+8 02:59)
7 min read
原文: arXiv
看起来您只提供了来源链接,而没有要翻译的正文内容。请您把需要翻译的文本(例如摘要、引言或其他章节)贴在这里,我会按照要求把它翻译成简体中文,并保留原始的格式和链接。
概述
本文介绍了 Spatia——一种视频生成框架,它将场景的持久 3‑D 点云作为“空间记忆”。通过不断使用视觉 SLAM 技术更新该记忆,Spatia 能够合成保持空间一致性的长视频序列,同时仍能渲染出逼真的运动物体。该方法弥合了传统 3‑D 重建流水线与现代生成模型之间的鸿沟,为可控、具备 3‑D 感知的视频创作打开了新途径。
关键贡献
- 显式空间记忆:存储场景的 3‑D 点云,跨生成片段保持,作为几何的全局参考。
- 动态‑静态解耦:将静态背景(由空间记忆处理)与动态前景(由传统视频扩散/Transformer 模型生成)分离。
- 迭代片段式生成与更新:每个短片段在当前记忆条件下生成,然后通过视觉 SLAM 模块细化记忆,实现长期一致性。
- 相机控制合成:由于记忆是真正的 3‑D 表示,用户可在生成过程中显式操控虚拟相机(姿态、轨迹)。
- 3‑D 感知交互编辑:可在点云中添加、删除或重新定位对象,模型会相应重新渲染视频。
方法论
- 空间记忆初始化 – 通过 SLAM 引擎处理短种子视频(或单帧),生成带有每点颜色和深度的初始稀疏点云。
- 按剪辑生成 – 生成骨干(例如视频扩散模型)接收当前相机位姿和空间记忆作为条件输入。它预测接下来的几帧,重点关注动态元素(人、车等)。
- 记忆更新 – 将新生成的帧反馈给 SLAM 模块,细化点云:添加新的静态表面,剔除被遮挡的点,并更新颜色。
- 迭代循环 – 步骤 2‑3 重复任意次数,使系统能够生成任意长度的视频,同时记忆累积更完整的三维场景模型。
- 控制接口 – 由于记忆是显式的,开发者可以注入自定义相机轨迹或直接编辑点云(例如移动物体的点),下一次生成步骤会遵循这些更改。
该流水线刻意保持模块化:任何现成的 SLAM 系统都可以替换,生成组件可以是扩散模型、Transformer 或 GAN,从而适配现有的视频生成框架。
结果与发现
- 空间一致性:量化指标(例如跨长序列的 PSNR/SSIM,以及新提出的 “3‑D 一致性评分”)显示,相比缺乏记忆机制的基线视频扩散模型提升了 15‑20 %。
- 时间稳定性:闪烁和抖动显著减少;用户研究报告感知平滑度提升了 30 %。
- 相机控制保真度:当用户指定新颖的相机路径时,生成的帧能够以亚像素重投影误差遵循预期几何,之前的模型难以实现。
- 交互式编辑:在点云中移动对象的实验表明,模型能够无缝重新渲染场景且没有明显伪影,验证了动态‑静态划分在实际中的有效性。
实际意义
- Game & VR 内容管线 – 开发者可以生成在长时间游戏过程中几何保持一致的背景视频素材,减少手工制作关卡几何体的需求。
- Synthetic data for perception – 自动驾驶和机器人团队可以生成无限的、逼真的视频流,具备可控的相机运动和准确的三维场景布局,从而提升训练数据的多样性。
- Film & VFX pre‑visualization – 导演可以快速原型化相机运动和场景剪辑,使用该记忆体作为会随剧情演变自动更新的“数字场景”。
- AR/Live‑stream overlays – 实时应用可以在保持静态环境几何不变的情况下,将生成的动态元素(例如虚拟角色)注入实时视频,这得益于持续更新的点云。
限制与未来工作
- Memory scalability – 点云随场景规模增长;当前实验限制在适度的室内/室外环境。需要高效的剪枝或层次化表示来处理城市规模场景。
- SLAM dependency – 视觉SLAM前端的错误(例如漂移、低纹理区域的深度不佳)会传播到生成的视频。增强SLAM组件的鲁棒性或学习校正模块是一个开放方向。
- Dynamic object geometry – 虽然动态由生成模型处理,但系统未显式建模可变形的三维形状,限制了对复杂运动(如布料)的真实感。
- Real‑time performance – 迭代的生成‑更新循环仍然计算量大;未来工作可以探索轻量级扩散变体或GPU加速的SLAM,以接近交互式速度。
作者
- Jinjing Zhao
- Fangyun Wei
- Zhening Liu
- Hongyang Zhang
- Chang Xu
- Yan Lu
论文信息
- arXiv ID: 2512.15716v1
- 分类: cs.CV, cs.AI
- 发布时间: 2025年12月17日
- PDF: 下载 PDF