[Paper] Yume-1.5:文本控制的交互式世界生成模型

发布: (2025年12月27日 GMT+8 01:52)
7 min read
原文: arXiv

Source: arXiv - 2512.22096v1

概述

本文介绍了 Yume‑1.5,一种基于扩散的新框架,能够从单张图像或文本提示生成可探索的类 3D 世界,并让用户通过键盘实时漫游。通过解决以往世界生成模型的三大痛点(模型体积庞大、推理多步缓慢、缺乏文本驱动的事件控制),作者提供了一个响应足够快的系统,适用于游戏、VR 体验和快速原型工具等交互式应用。

关键贡献

  • 统一的长视频生成流水线,压缩不断增长的历史上下文,并使用线性注意力使内存和计算随序列长度线性增长。
  • 实时流式加速,通过双向注意力蒸馏和增强的文本嵌入方案实现,将推理延迟从秒级降低到每帧不足 100 ms。
  • 文本控制的世界事件,允许用户描述动态变化(例如“暴风雨来临”或“桥梁倒塌”),模型能够即时更新场景。
  • 键盘驱动的探索界面,展示在生成的世界中无缝导航,无需外部物理引擎。
  • 开源代码发布(补充材料),使社区能够复现并扩展该系统。

方法论

Yume‑1.5 基于扩散模型,但对其进行重构以实现交互式使用:

  1. 上下文压缩 + 线性注意力 – 随着世界的扩展,模型通常需要保留所有已生成帧的完整历史,这会迅速耗尽 GPU 内存。作者引入了一个轻量级压缩模块,将过去的帧汇总为固定大小的潜在表示,然后将其输入线性注意力 Transformer,使其随帧数线性扩展,而非平方级增长。

  2. 双向注意力蒸馏 – 在训练期间,重量级的“教师”模型使用标准注意力处理完整上下文。一个更小的“学生”模型在仅观察有限窗口的情况下学习模仿教师的输出,从而显著降低运行时开销,同时保持质量。

  3. 增强文本嵌入 – 系统不再使用单一的提示 token,而是将层次化的文本嵌入(全局提示 + 每步事件 token)注入扩散去噪步骤,实现对世界动态的细粒度控制。

  4. 键盘导航循环 – 生成的帧被流式传输到轻量级渲染器。用户的按键操作被转换为潜在空间偏移,并反馈到扩散步骤,以产生下一个视角,从而创建平滑的第一人称漫游体验。

结果与发现

  • 延迟:每帧平均生成时间从约 1.2 秒(基线扩散)下降至 ≈85 毫秒(RTX 3090),满足实时交互阈值。
  • 质量:人工评估(平均意见分数)相比之前的长视频扩散基线提升 +0.6,尤其在保持跨帧空间一致性方面表现更佳。
  • 文本‑事件响应性:当用户发出动态指令(“添加一条河流”“夜幕降临”)时,模型在 2–3 帧 内更新场景,保持连续性。
  • 可扩展性:压缩上下文使得生成时长可达 30 秒(≈900 帧)而不出现 OOM 错误,比之前的方法提升了 4 倍。

实际意义

  • Game Prototyping – 设计师可以草绘概念图或撰写简短描述,即可立即在可玩环境中漫游,加速关卡设计周期。
  • VR/AR Content Creation – 实时生成意味着在设备端或云端辅助的体验,环境可根据语音或文字指令进行演变,开启自适应叙事。
  • Simulation & Training – 机器人或自动驾驶等行业可以即时生成多样且可控的虚拟地形,用于场景测试。
  • Creative Tools – 艺术家可以通过输入“添加一个中世纪集市”或“将其变成赛博朋克夜景”等指令来迭代世界构建,并立即看到视觉反馈,降低高保真世界创作的门槛。

限制与未来工作

  • 物理真实感 – 当前系统侧重于视觉可信度;未模拟物理(碰撞、重力),限制了在高保真游戏引擎中的使用。
  • 文本理解范围 – 复杂的多步骤指令有时会产生歧义结果;更强大的语言模型可以改进事件解析。
  • 硬件依赖 – 虽然在高端 GPU 上延迟可实现实时,但低配硬件仍然吃力;未来工作旨在进一步进行模型剪枝和量化。
  • 评估指标 – 论文主要依赖主观评分;为交互式世界生成建立标准化的量化指标仍是一个未解的挑战。

Yume‑1.5 标志着在生成式 AI 与交互媒体之间搭建桥梁的重大一步,为开发者提供了一条实用路径,能够在无需传统游戏流水线沉重基础设施的情况下创建动态、文本驱动的世界。

作者

  • Xiaofeng Mao
  • Zhen Li
  • Chuanhao Li
  • Xiaojie Xu
  • Kaining Ying
  • Tong He
  • Jiangmiao Pang
  • Yu Qiao
  • Kaipeng Zhang

论文信息

  • arXiv ID: 2512.22096v1
  • 类别: cs.CV
  • 发表时间: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »