[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

发布: (2026年2月26日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.22208v1

概览

本文提出了 Solaris,这是首个能够为 多个 代理在共享的 Minecraft 环境中生成连贯、多视角视频流的视频世界模型。通过构建专用的数据收集管线和新颖的训练方案,作者展示了不仅可以建模单个玩家的视野,还可以模拟多个玩家的视角随时间共同演化的可能性——为游戏、机器人以及人工智能研究提供了更丰富的仿真平台。

关键贡献

  • Multiplayer data system: 一个自动化流水线,记录多代理共同玩 Minecraft 时的同步视频、动作和世界状态,产生了 12.64 M 帧。
  • Evaluation suite for multiplayer dynamics: 包含运动协同、过去事件记忆、对象落地、协作建造以及跨视角一致性等基准。
  • Staged training pipeline: 采用渐进式方法,先从单人建模开始,逐步引入多代理交互,使用双向、因果和 Self‑Forcing 目标的组合。
  • Checkpointed Self‑Forcing: 一种内存高效的变体,使模型能够在不爆炸 GPU 使用的情况下远距离前瞻(长视野教师)。
  • Open‑source release: 数据收集框架、已训练模型和评估代码均已公开,为未来的多代理世界模型研究提供基础。

方法论

  1. 数据收集 – 作者构建了一个自定义 Minecraft 服务器,生成多个机器人,每个机器人都有自己的摄像头。服务器以 20 Hz 记录每帧、对应的动作(例如移动、放置方块)以及全局世界快照,确保跨代理的时间对齐完美。
  2. 模型架构 – Solaris 在视频扩散骨干网络上扩展了 多个 条件流:
    • 特定代理的动作令牌(每个玩家的行为)。
    • 共享世界记忆,存储所有代理过去帧的压缩表示。
    • 双向因果层,允许信息在时间上前后流动,提升一致性。
  3. 训练阶段
    • 阶段 1:在单人片段上训练,以学习基本的物理和纹理生成。
    • 阶段 2:引入配对代理,鼓励模型在给定另一代理动作的情况下预测该代理的视角(因果条件)。
    • 阶段 3:应用 Self‑Forcing,将模型自身的预测作为下一个时间步的输入,迫使其保持连贯性。
    • 阶段 4Checkpointed Self‑Forcing——不存储完整的长时教师轨迹,而是对中间状态进行检查点保存,显著降低内存占用,同时仍提供远视监督信号。
  4. 评估 – 作者在五个维度(移动、记忆、落地、建造、视角一致性)上测试 Solaris,使用定量指标(如 PSNR、SSIM、动作预测准确率)和人工判断。

结果与发现

  • Solaris 在跨视角一致性指标上比之前的单代理视频世界模型高出 15‑20 %,表明它能够在长时间跨度内保持多个视角的一致对齐。
  • building 基准测试中,模型正确预测协作结构的比例为 87 %,而最佳基线为 62 %。
  • Checkpointed Self‑Forcing 将 GPU 内存使用量降低约 45 %,同时将教师视野从 8 帧扩展到 32 帧,从而实现更平滑的长期预测。
  • 人工评估者在 78 % 的两两比较中认为 Solaris 生成的多人视频比竞争模型更“真实”和“协调”。

实际意义

  • Game AI 与内容生成 – 开发者可以使用 Solaris 来原型化多人场景,自动生成在不同玩家视角下保持一致的 NPC 行为,或创建能够根据多个摄像机适配的动态过场动画。
  • 机器人与仿真 – 该框架可以改编用于模拟机器人群体(例如仓库无人机),在其中每个机器人的传感器数据必须与其他机器人保持一致,从而在实际部署前实现更安全的策略测试。
  • 虚拟协作工具 – 在 VR/AR 会议空间中,类似 Solaris 的模型能够预测并渲染每位参与者视角下的共享环境,仅发送高层次的动作更新即可降低延迟和带宽消耗。
  • 研究平台 – 通过开源数据管道,社区现在可以在大规模、多样化的数据集上基准测试多智能体世界模型,推动多智能体强化学习和生成建模的进展。

限制与未来工作

  • 领域特定性 – 该系统针对 Minecraft 的方块式图形进行调优;若要迁移到写实或物理负载较重的环境,可能需要进行大量适配。
  • 代理的可扩展性 – 实验中最多使用四个代理;如果扩展到数十甚至数百个(例如大型多人在线游戏),可能会暴露同步和内存方面的瓶颈。
  • 动作空间覆盖 – 仅建模了 Minecraft 的一部分动作(移动、放置/移除方块),更丰富的交互如战斗或物品管理仍未探索。
  • 未来方向 – 作者建议将 Solaris 扩展到异构传感器模态(音频、深度),结合强化学习实现策略条件生成,并探索层次化记忆结构以处理更大规模的代理群体。

作者

  • Georgy Savva
  • Oscar Michel
  • Daohan Lu
  • Suppakit Waiwitlikhit
  • Timothy Meehan
  • Dhairya Mishra
  • Srivats Poddar
  • Jack Lu
  • Saining Xie

论文信息

  • arXiv ID: 2602.22208v1
  • 分类: cs.CV
  • 发布日期: 2026年2月25日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »