[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

发布: 3天前 (2026年2月26日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.22208v1

概览

本文提出了 Solaris，这是首个能够为多个代理在共享的 Minecraft 环境中生成连贯、多视角视频流的视频世界模型。通过构建专用的数据收集管线和新颖的训练方案，作者展示了不仅可以建模单个玩家的视野，还可以模拟多个玩家的视角随时间共同演化的可能性——为游戏、机器人以及人工智能研究提供了更丰富的仿真平台。

关键贡献

Multiplayer data system: 一个自动化流水线，记录多代理共同玩 Minecraft 时的同步视频、动作和世界状态，产生了 12.64 M 帧。
Evaluation suite for multiplayer dynamics: 包含运动协同、过去事件记忆、对象落地、协作建造以及跨视角一致性等基准。
Staged training pipeline: 采用渐进式方法，先从单人建模开始，逐步引入多代理交互，使用双向、因果和 Self‑Forcing 目标的组合。
Checkpointed Self‑Forcing: 一种内存高效的变体，使模型能够在不爆炸 GPU 使用的情况下远距离前瞻（长视野教师）。
Open‑source release: 数据收集框架、已训练模型和评估代码均已公开，为未来的多代理世界模型研究提供基础。

方法论

数据收集 – 作者构建了一个自定义 Minecraft 服务器，生成多个机器人，每个机器人都有自己的摄像头。服务器以 20 Hz 记录每帧、对应的动作（例如移动、放置方块）以及全局世界快照，确保跨代理的时间对齐完美。
模型架构 – Solaris 在视频扩散骨干网络上扩展了多个条件流：
- 特定代理的动作令牌（每个玩家的行为）。
- 共享世界记忆，存储所有代理过去帧的压缩表示。
- 双向因果层，允许信息在时间上前后流动，提升一致性。
训练阶段 –
- 阶段 1：在单人片段上训练，以学习基本的物理和纹理生成。
- 阶段 2：引入配对代理，鼓励模型在给定另一代理动作的情况下预测该代理的视角（因果条件）。
- 阶段 3：应用 Self‑Forcing，将模型自身的预测作为下一个时间步的输入，迫使其保持连贯性。
- 阶段 4：Checkpointed Self‑Forcing——不存储完整的长时教师轨迹，而是对中间状态进行检查点保存，显著降低内存占用，同时仍提供远视监督信号。
评估 – 作者在五个维度（移动、记忆、落地、建造、视角一致性）上测试 Solaris，使用定量指标（如 PSNR、SSIM、动作预测准确率）和人工判断。

结果与发现

Solaris 在跨视角一致性指标上比之前的单代理视频世界模型高出 15‑20 %，表明它能够在长时间跨度内保持多个视角的一致对齐。
在 building 基准测试中，模型正确预测协作结构的比例为 87 %，而最佳基线为 62 %。
Checkpointed Self‑Forcing 将 GPU 内存使用量降低约 45 %，同时将教师视野从 8 帧扩展到 32 帧，从而实现更平滑的长期预测。
人工评估者在 78 % 的两两比较中认为 Solaris 生成的多人视频比竞争模型更“真实”和“协调”。

实际意义

Game AI 与内容生成 – 开发者可以使用 Solaris 来原型化多人场景，自动生成在不同玩家视角下保持一致的 NPC 行为，或创建能够根据多个摄像机适配的动态过场动画。
机器人与仿真 – 该框架可以改编用于模拟机器人群体（例如仓库无人机），在其中每个机器人的传感器数据必须与其他机器人保持一致，从而在实际部署前实现更安全的策略测试。
虚拟协作工具 – 在 VR/AR 会议空间中，类似 Solaris 的模型能够预测并渲染每位参与者视角下的共享环境，仅发送高层次的动作更新即可降低延迟和带宽消耗。
研究平台 – 通过开源数据管道，社区现在可以在大规模、多样化的数据集上基准测试多智能体世界模型，推动多智能体强化学习和生成建模的进展。

限制与未来工作

领域特定性 – 该系统针对 Minecraft 的方块式图形进行调优；若要迁移到写实或物理负载较重的环境，可能需要进行大量适配。
代理的可扩展性 – 实验中最多使用四个代理；如果扩展到数十甚至数百个（例如大型多人在线游戏），可能会暴露同步和内存方面的瓶颈。
动作空间覆盖 – 仅建模了 Minecraft 的一部分动作（移动、放置/移除方块），更丰富的交互如战斗或物品管理仍未探索。
未来方向 – 作者建议将 Solaris 扩展到异构传感器模态（音频、深度），结合强化学习实现策略条件生成，并探索层次化记忆结构以处理更大规模的代理群体。

作者

Georgy Savva
Oscar Michel
Daohan Lu
Suppakit Waiwitlikhit
Timothy Meehan
Dhairya Mishra
Srivats Poddar
Jack Lu
Saining Xie

论文信息

arXiv ID: 2602.22208v1
分类: cs.CV
发布日期: 2026年2月25日
PDF: 下载 PDF

[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] MediX-R1: 开放式医学强化学习

[Paper] VGG-T³：离线前馈式大规模3D重建

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练