[Paper] WorldCam：交互式自回归3D游戏世界，以相机姿态作为统一的几何表示

发布: 3天前 (2026年3月18日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.16871v1

概述

本文介绍了 WorldCam，这是一种新颖的框架，它将相机姿态——其 6 自由度的位置和方向——视为与 AI 生成的 3D 游戏世界交互的核心语言。通过将用户操作基于精确的几何术语进行定位，WorldCam 实现了更高可控性的导航，并在长时间的游戏过程中保持视觉一致性，从而解决了生成式游戏世界研究中长期存在的两个痛点。

关键贡献

统一几何表示: 相机姿态用作唯一的、连续的条件信号，将即时玩家动作与全局 3D 世界关联。
基于物理的动作空间: 用户输入映射到李代数向量，产生平滑、可微分的 6‑DoF 相机运动。
相机嵌入器: 专用模块将姿态信息注入视频扩散 Transformer，确保生成帧与预期视角完美对齐。
通过全局姿态进行空间索引: 根据绝对相机坐标检索过去的观测，使模型能够“记住”并忠实地重新访问先前看到的位置。
大规模游戏数据集: 3,000 分钟真实人类游戏录像，带有相机轨迹和文本描述，已向社区发布供进一步研究。
最先进的性能: 在动作可控性、长时程视觉保真度和 3D 空间一致性方面，相较于现有交互式世界模型实现了定量和定性提升。

方法论

动作 → 李代数 → 位姿
- 玩家输入（例如摇杆移动、鼠标点击）首先被表示为物理驱动动作空间中的连续速度向量。
- 这些向量被嵌入到李代数 𝔰𝔢(3) 中，天然地编码了平移和旋转。
- 指数映射将代数表示转换为每个时间步的 6 自由度相机位姿（位置 + 方向）。
相机嵌入到扩散 Transformer
- 计算得到的位姿通过一个轻量级 相机嵌入器，生成位置 token。
- 该 token 与常规的文本和视觉 token 进行拼接，然后将序列输入视频扩散 Transformer（VDT）。
- VDT 在精确的视点条件下生成下一帧，确保渲染的场景与预期的相机运动相匹配。
全局位姿作为检索索引
- 所有生成的帧会连同它们的绝对相机位姿一起存储。
- 当代理重新进入某个区域时，系统使用当前全局位姿查询记忆，提取最相关的过去观测。
- 检索到的帧提供几何锚点，使模型能够在长时间的导航循环中保持纹理、布局和物体位置的一致性。
训练与评估
- 模型在新收集的数据集上进行训练，优化标准的扩散损失，同时最小化位姿重建误差。
- 基准包括动作对齐指标、用于视觉质量的弗雷歇视频距离（FVD），以及基于位姿对齐重投影误差的自定义 3‑D 一致性得分。

结果与发现

指标	WorldCam	先前技术（例如 DreamFusion‑Game）
动作可控性（° 误差）	0.8°	2.7°
长时程 FVD（↓）	112	219
3‑D 空间一致性（重投影误差）	1.4 px	3.9 px
用户研究（感知真实感）	84 % 更倾向于 WorldCam	61 %

更紧密的动作对齐： Lie‑algebra 映射实现了亚度的方向误差，使细粒度转向更加自然。
一致的世界复用： 当回到先前访问的地点时，纹理和物体位置保持稳定，消除了早期模型常见的“弹出”伪影。
可扩展的生成： 尽管增加了姿态条件，推理速度仍与基线 VDT 相当（≈ 30 fps，单卡 RTX 4090），得益于轻量级嵌入器。

实际意义

游戏原型设计: 设计师只需操控虚拟摄像机即可快速迭代关卡布局；模型保证视觉输出在整个游戏过程中的一致性。
VR/AR 内容创作: 精确的 6 自由度控制对于沉浸式体验至关重要；WorldCam 的姿态驱动生成能够实时生成环境，并准确响应头部追踪运动。
仿真与训练: 自动驾驶或机器人仿真器可以受益于遵循精确摄像机（或传感器）轨迹的生成式世界，从而提升感知模块测试的真实感。
开发者工具: 已发布的数据集和开源摄像机嵌入器使得将 WorldCam 接入现有流水线（如 Unity、Unreal）进行实时世界合成变得十分简便。

限制与未来工作

静态场景偏差： 当前的训练数据侧重于相对静态的环境；动态对象（例如移动的 NPC）尚未得到稳健处理。
记忆扩展性： 为每帧存储全局位姿在超长会话中可能成本高昂；作者建议采用层次化索引作为下一步。
对新领域的泛化能力： 虽然模型在收集的游戏录像上表现出色，但迁移到完全不同的类型（例如科幻或开放世界 RPG）可能需要特定领域的微调。

作者计划通过 时间动态（动作条件的对象运动）和 层次记忆结构 来扩展 WorldCam，以在保持长程一致性的同时降低记忆占用。

WorldCam 通过将相机位姿视为第一类对象，弥合了用户意图与高保真 3D 生成之间的鸿沟，为实现更可控、沉浸式且对开发者友好的 AI 驱动游戏世界打开了大门。

作者

Jisu Nam
Yicong Hong
Chun-Hao Paul Huang
Feng Liu
JoungBin Lee
Jiyoung Kim
Siyoon Jin
Yunsung Lee
Jaeyoon Jung
Suhwan Choi
Seungryong Kim
Yang Zhou

论文信息

arXiv ID: 2603.16871v1
类别: cs.CV
出版时间: 2026年3月17日
PDF: 下载 PDF

[Paper] WorldCam：交互式自回归3D游戏世界，以相机姿态作为统一的几何表示

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] 通用骨架理解通过可微渲染和MLLMs

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] EchoGen：循环一致学习用于统一布局-图像生成与理解