[Paper] CityRAG:步入城市:空间式视频生成
Source: arXiv - 2604.19741v1
(请提供您希望翻译的具体文本内容,我将为您将其翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。)
概述
CityRAG 引入了一种全新的方式来生成长时、逼真的视频素材,这些视频在 空间上扎根 于真实城市。通过将生成模型与海量的地理配准影像(例如街景全景、卫星地图、交通摄像头)相结合,系统能够合成分钟级、三维一致的视频,遵循街道、建筑和地标的真实布局——同时仍然可以灵活控制天气、光照和动态对象。这弥合了“创意”视频合成与自动驾驶、机器人以及虚拟城市仿真中对真实可导航环境的需求之间的差距。
关键贡献
- 通过地理注册上下文实现空间定位: CityRAG 处理大规模、未对齐的数据集(街景、卫星、航空),将生成的帧锚定到特定的物理位置。
- 场景与瞬时属性的时间解耦: 模型学习将永久几何(道路、建筑)与可变因素(天气、交通、时间)分离。
- 长时段、闭环视频生成: 展示在数千帧上保持一致的生成,光照和天气保持一致,并支持导航的闭环。
- 轨迹驱动的导航: 用户可以指定任意相机路径(例如驾驶路线),模型渲染出忠实遵循底层城市地图的视频。
- 在未对齐数据上训练: 无需同步视频流;系统利用现有的、时间上松散的地理标记图像,显著降低数据收集成本。
方法论
-
数据骨干: CityRAG 构建了一个多模态的地理注册资产数据库:
- 静态地图(卫星正射影像、GIS 道路图)提供不变的布局。
- 动态图像(街景全景、行车记录仪剪辑)提供在各种条件下的外观线索。
-
场景编码器: 基于 Transformer 的编码器读取静态地图,并为每个 3‑D 坐标提取 空间嵌入。该嵌入充当“场景指纹”,在时间上保持不变。
-
属性解码器: 一个独立的扩散式解码器接收空间嵌入以及 条件向量(天气、时间、交通密度)。由于训练数据在时间上未对齐,解码器学习仅将条件向量应用于瞬时的视觉因素,而保持底层几何不变。
-
轨迹条件化: 用户提供 GPS 路点序列或参数化路径。系统沿路径采样相应的空间嵌入,并逐帧送入解码器,将输出拼接成平滑视频。
-
闭环与一致性: 自监督损失在相机返回先前访问位置时惩罚潜在空间的漂移,促使模型对相同空间坐标产生相同帧,无论渲染时间何时。
Source: …
结果与发现
- 连贯的分钟级视频: CityRAG 能生成最长达 5 分钟(约 9 000 帧)的视频,且没有明显的闪烁或几何失真。
- 天气与光照的持续性: 在以 “雨夜” 为条件时,模型在整个序列中始终保持雨滴痕迹、湿润表面以及低光阴影的一致性。
- 环路闭合成功: 在一次虚拟摄像机完成城市街区环路的测试中,起始帧与结束帧在像素层面上的误差不超过 2 %,验证了空间定位的准确性。
- 复杂轨迹处理: 模型能够在急转弯、海拔变化和遮挡(例如桥下通过)等情形下保持正确的透视和深度线索。
- 量化指标: 与基线文本到视频扩散模型相比,CityRAG 将结构相似度(SSIM)提升了 18 %,并将时间不一致性(通过光流方差衡量)降低了 27 %。
实际意义
- Autonomous‑vehicle simulation: 工程师可以生成无尽的、逼真的驾驶场景,用于感知栈测试,无需手动构建 3‑D 资产或捕获新视频。
- Robotics & SLAM research: 空间定位视频为训练和评估定位与建图算法提供了廉价的合成但真实的数据来源。
- Urban planning & VR tourism: 规划者可以预览在不同天气条件下拟议街道改造的效果,VR 平台则可以在不存储海量视频文件的情况下流式播放“实时”城市导览。
- Data augmentation: 现有数据集(例如 Waymo Open Dataset)可以通过合成的变化(夜间、雾天、拥堵交通)进行扩展,这些变化保持原始地图几何的真实性,从而提升模型鲁棒性。
限制与未来工作
- 分辨率上限: 当前实验限制在 512 × 512 像素;要扩展到 4K 以实现高保真模拟,需要更高效的扩散架构。
- 动态对象真实感: 虽然天气和光照建模良好,但移动主体(汽车、行人)仅以静态纹理生成;将基于物理的主体集成仍是未解决的挑战。
- 地理偏差: 该模型在地理配准影像密集覆盖的地区(如北美、欧洲)表现最佳。要扩展到数据不足的城市,需要更好的数据收集管道。
- 实时推理: 生成仍需数秒每帧;未来工作将探索潜空间缓存和 GPU 加速的扩散,以实现交互式导航。
CityRAG 标志着在生成式视频模型与真实世界空间保真度之间架起桥梁的重要一步,为构建下一代模拟、训练和沉浸式体验的开发者打开了新途径。
作者
- Gene Chou
- Charles Herrmann
- Kyle Genova
- Boyang Deng
- Songyou Peng
- Bharath Hariharan
- Jason Y. Zhang
- Noah Snavely
- Philipp Henzler
论文信息
- arXiv ID: 2604.19741v1
- 分类: cs.CV
- 出版日期: 2026年4月21日
- PDF: Download PDF