[Paper] WorldCam:交互式自回归3D游戏世界,以相机姿态作为统一的几何表示
发布: (2026年3月18日 GMT+8 01:59)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.16871v1
概述
本文介绍了 WorldCam,这是一种新颖的框架,它将相机姿态——其 6 自由度的位置和方向——视为与 AI 生成的 3D 游戏世界交互的核心语言。通过将用户操作基于精确的几何术语进行定位,WorldCam 实现了更高可控性的导航,并在长时间的游戏过程中保持视觉一致性,从而解决了生成式游戏世界研究中长期存在的两个痛点。
关键贡献
- 统一几何表示: 相机姿态用作唯一的、连续的条件信号,将即时玩家动作与全局 3D 世界关联。
- 基于物理的动作空间: 用户输入映射到李代数向量,产生平滑、可微分的 6‑DoF 相机运动。
- 相机嵌入器: 专用模块将姿态信息注入视频扩散 Transformer,确保生成帧与预期视角完美对齐。
- 通过全局姿态进行空间索引: 根据绝对相机坐标检索过去的观测,使模型能够“记住”并忠实地重新访问先前看到的位置。
- 大规模游戏数据集: 3,000 分钟真实人类游戏录像,带有相机轨迹和文本描述,已向社区发布供进一步研究。
- 最先进的性能: 在动作可控性、长时程视觉保真度和 3D 空间一致性方面,相较于现有交互式世界模型实现了定量和定性提升。
方法论
-
动作 → 李代数 → 位姿
- 玩家输入(例如摇杆移动、鼠标点击)首先被表示为物理驱动动作空间中的连续速度向量。
- 这些向量被嵌入到李代数 𝔰𝔢(3) 中,天然地编码了平移和旋转。
- 指数映射将代数表示转换为每个时间步的 6 自由度相机位姿(位置 + 方向)。
-
相机嵌入到扩散 Transformer
- 计算得到的位姿通过一个轻量级 相机嵌入器,生成位置 token。
- 该 token 与常规的文本和视觉 token 进行拼接,然后将序列输入视频扩散 Transformer(VDT)。
- VDT 在精确的视点条件下生成下一帧,确保渲染的场景与预期的相机运动相匹配。
-
全局位姿作为检索索引
- 所有生成的帧会连同它们的绝对相机位姿一起存储。
- 当代理重新进入某个区域时,系统使用当前全局位姿查询记忆,提取最相关的过去观测。
- 检索到的帧提供几何锚点,使模型能够在长时间的导航循环中保持纹理、布局和物体位置的一致性。
-
训练与评估
- 模型在新收集的数据集上进行训练,优化标准的扩散损失,同时最小化位姿重建误差。
- 基准包括动作对齐指标、用于视觉质量的弗雷歇视频距离(FVD),以及基于位姿对齐重投影误差的自定义 3‑D 一致性得分。
结果与发现
| 指标 | WorldCam | 先前技术(例如 DreamFusion‑Game) |
|---|---|---|
| 动作可控性(° 误差) | 0.8° | 2.7° |
| 长时程 FVD(↓) | 112 | 219 |
| 3‑D 空间一致性(重投影误差) | 1.4 px | 3.9 px |
| 用户研究(感知真实感) | 84 % 更倾向于 WorldCam | 61 % |
- 更紧密的动作对齐: Lie‑algebra 映射实现了亚度的方向误差,使细粒度转向更加自然。
- 一致的世界复用: 当回到先前访问的地点时,纹理和物体位置保持稳定,消除了早期模型常见的“弹出”伪影。
- 可扩展的生成: 尽管增加了姿态条件,推理速度仍与基线 VDT 相当(≈ 30 fps,单卡 RTX 4090),得益于轻量级嵌入器。
实际意义
- 游戏原型设计: 设计师只需操控虚拟摄像机即可快速迭代关卡布局;模型保证视觉输出在整个游戏过程中的一致性。
- VR/AR 内容创作: 精确的 6 自由度控制对于沉浸式体验至关重要;WorldCam 的姿态驱动生成能够实时生成环境,并准确响应头部追踪运动。
- 仿真与训练: 自动驾驶或机器人仿真器可以受益于遵循精确摄像机(或传感器)轨迹的生成式世界,从而提升感知模块测试的真实感。
- 开发者工具: 已发布的数据集和开源摄像机嵌入器使得将 WorldCam 接入现有流水线(如 Unity、Unreal)进行实时世界合成变得十分简便。
限制与未来工作
- 静态场景偏差: 当前的训练数据侧重于相对静态的环境;动态对象(例如移动的 NPC)尚未得到稳健处理。
- 记忆扩展性: 为每帧存储全局位姿在超长会话中可能成本高昂;作者建议采用层次化索引作为下一步。
- 对新领域的泛化能力: 虽然模型在收集的游戏录像上表现出色,但迁移到完全不同的类型(例如科幻或开放世界 RPG)可能需要特定领域的微调。
作者计划通过 时间动态(动作条件的对象运动)和 层次记忆结构 来扩展 WorldCam,以在保持长程一致性的同时降低记忆占用。
WorldCam 通过将相机位姿视为第一类对象,弥合了用户意图与高保真 3D 生成之间的鸿沟,为实现更可控、沉浸式且对开发者友好的 AI 驱动游戏世界打开了大门。
作者
- Jisu Nam
- Yicong Hong
- Chun-Hao Paul Huang
- Feng Liu
- JoungBin Lee
- Jiyoung Kim
- Siyoon Jin
- Yunsung Lee
- Jaeyoon Jung
- Suhwan Choi
- Seungryong Kim
- Yang Zhou
论文信息
- arXiv ID: 2603.16871v1
- 类别: cs.CV
- 出版时间: 2026年3月17日
- PDF: 下载 PDF