[Paper] WorldCompass：强化学习用于长时程世界模型

发布: 3天前 (2026年2月10日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.09022v1

概览

WorldCompass 是一个全新的强化学习（RL）后训练框架，升级了长时程、基于视频的世界模型，使其能够更可靠地探索和响应用户交互。通过将世界模型视为自回归视频生成器，并使用精心设计的奖励对其进行“引导”，作者实现了显著更高的交互准确性和视觉质量——这是朝着更可用的仿真和生成式 AI 系统迈出的关键一步。

关键贡献

剪辑级滚动策略 – 在单个目标段落生成并评估多个候选视频剪辑，显著提升滚动效率并提供细粒度奖励信号。
双目标奖励设计 – 将交互跟随准确性奖励与视觉质量奖励相结合，提供直接监督的同时抑制奖励黑客行为。
负向感知微调 RL 算法 – 一种轻量级的 RL 更新，惩罚不良生成，并结合多种效率技巧，使训练快速且内存友好。
在 WorldPlay 上展示的提升 – 将 WorldCompass 应用于最先进的开源世界模型（WorldPlay），在模型对指令的遵循程度和生成视频的真实感方面均实现了持续提升。

方法论

WorldCompass 基于已有的自回归视频世界模型（例如 WorldPlay）进行构建。工作流程可以分为三个直观的步骤：

剪辑级别展开 – 与其逐帧展开整段长视频，系统会采样一组完整的短剪辑（例如 2‑3 秒），这些剪辑都从相同的上下文开始。每个剪辑都会被打分，使得强化学习（RL）循环能够获得密集的剪辑级奖励，而不是稀疏的回合结束信号。
奖励工程
- 交互准确性：衡量生成的剪辑与规定的动作序列（例如 “拿起杯子”）的吻合程度。
- 视觉保真度：使用感知指标（例如 LPIPS、帧级锐度）来确保视频保持真实。
  两种奖励会按照加权方案相加，以防模型只“投机”某一指标而牺牲另一指标。
负向感知微调 – 一种轻量级的策略梯度更新，显式惩罚视觉质量低或交互错误大的剪辑。作者还结合了梯度缓存、混合精度训练以及批次级剪辑选择，以保持额外的 RL 开销在可接受范围内。

所有这些操作都在 基础世界模型已经训练完毕之后 进行，因此开发者可以将 WorldCompass 插入任何已有的视频生成流水线，而无需从头重新训练。

Results & Findings

Interaction accuracy 提高约 ≈15‑20 %，在一系列基准任务（例如，物体操作、导航）上相较于原始 WorldPlay 模型表现更佳。
Visual quality（通过 LPIPS 和用户偏好研究衡量）提升 10‑12 %，且出现的伪影（如闪烁或不真实的纹理）更少。
Efficiency：clip‑level rollout 将完整回合评估所需的前向传播次数降低约 ≈3×，而 RL 微调每个 epoch 只增加约 ≈0.5‑1 % 的额外训练时间。
Ablation studies 证实每个组件（clip‑level rollout、dual rewards、negative‑aware updates）都对性能有显著贡献；移除任意一项都会使表现回落至基线水平。

实际意义

仿真与机器人 – 开发者可以将增强了 WorldCompass 的模型嵌入虚拟环境，以进行更真实的机器人策略测试，在这些场景中对指令的准确响应至关重要。
交互式媒体 – 游戏工作室和 VFX 流程可以生成更长、可控的视频序列，既保持剧本一致性，又维持电影级画质。
生成式 AI 助手 – 基于聊天的生成视频工具能够生成更长、遵循指令的片段，避免当前模型常见的“漂移”问题。
即插即用升级 – 由于 WorldCompass 作为后训练包装器工作，现有的世界模型部署可以在最小的工程投入下完成升级，无需重新收集海量视频数据。

局限性与未来工作

Domain specificity – 实验聚焦于室内、以对象为中心的场景；在户外或高度动态的领域（例如体育）上的表现仍未经过测试。
Reward balance tuning – 仍需通过手动超参数搜索来选择交互奖励与视觉奖励之间的合适权重。
Scalability to very long horizons – 虽然剪辑级回滚加快了训练，但生成真正持续数小时的连贯视频可能需要层次化规划的扩展。
Future directions suggested by the authors include integrating language‑conditioned rewards, exploring multi‑agent interaction scenarios, and releasing a lightweight API for broader community adoption.

作者

Zehan Wang
Tengfei Wang
Haiyu Zhang
Xuhui Zuo
Junta Wu
Haoyuan Wang
Wenqiang Sun
Zhenwei Wang
Chenjie Cao
Hengshuang Zhao
Chunchao Guo
Zhou Zhao

论文信息

arXiv ID: 2602.09022v1
分类: cs.CV
出版时间: 2026年2月9日
PDF: 下载 PDF

[Paper] WorldCompass：强化学习用于长时程世界模型

概览

关键贡献

方法论

Results & Findings

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] SurfPhase：稀疏视频中的两相流 3D 界面动力学

[Paper] GENIUS：生成式流体智力评估套件

[论文] PhyCritic：用于物理 AI 的多模态批评模型

[论文] FastFlow：通过Bandit推断加速生成流匹配模型