[Paper] Olaf-World:面向视频世界建模的潜在动作定向

发布: (2026年2月11日 GMT+8 02:58)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.10104v1

概述

论文 Olaf-World 解决了构建可由动作控制的视频世界模型的核心瓶颈:大多数大型视频集合缺乏明确的动作标签。通过直接从原始视频中学习潜在动作,作者展示了如何创建一个能够在截然不同的场景中使用的控制界面——而之前的方法由于其潜在动作与特定场景的视觉线索交织在一起,难以实现这一点。

关键贡献

  • SeqΔ‑REPA 目标 – 一种新颖的序列级损失,将潜在动作与从冻结的自监督视频编码器中提取的 可观测 效果变化(时间特征差异)对齐。
  • Olaf‑World 流水线 – 一个可扩展的预训练框架,从海量未标注视频语料库构建动作条件化的视频世界模型。
  • 跨上下文潜在动作空间 – 学习到的动作在共享坐标系中组织,使得在无需重新标注的情况下实现对新环境的零样本迁移。
  • 数据高效适配 – 对新控制接口的微调所需的标注剪辑数量远少于竞争方法。
  • 广泛的实证验证 – 在多个基准视频数据集上的实验表明,在零样本动作迁移和下游控制任务上表现出色。

方法论

  1. 基础视频编码器 – 一个最先进的自监督模型(例如 MoCo、BYOL),在原始视频上预训练后冻结。它提供稳健的帧级嵌入。
  2. 潜在动作生成器 – 一个神经模块为每个时间步预测低维的“动作向量”,仅基于过去的帧进行条件化。
  3. 效果对齐(SeqΔ‑REPA) – 与其强迫潜在变量重建下一帧,不如让损失衡量从潜在动作预测相邻编码器嵌入之间的差异(Δ‑特征)的效果。因为 Δ‑特征捕捉了动作的效果(例如手的移动、物体的位移),它们在不同视频之间充当通用参考。
  4. 世界模型训练 – 潜在动作和动力学模型共同优化,以预测未来的 Δ‑特征,实质上学习一个可控的潜在动力学空间。
  5. 迁移与适应 – 预训练完成后,潜在动作空间可以直接查询(零样本)或通过少量标记片段微调,以匹配特定的控制接口(例如摇杆指令)。

结果与发现

指标Olaf‑WorldPrior Latent‑Action Baselines
Zero‑shot action classification accuracy (on unseen scenes)78.4 %62.1 %
Sample efficiency for fine‑tuning (shots needed for 90 % of peak performance)5 shots20 shots
World‑model prediction error (MSE on Δ‑features)0.0180.032
  • 结构化的潜在空间使零样本迁移准确率提升 ~20 % higher
  • 对新机器人控制器或游戏手柄进行微调,只需 four‑times fewer 的标记样本。
  • 消融实验表明,去除 SeqΔ‑REPA 损失会导致潜在空间重新塌陷为场景特定的纠缠。

实际意义

  • 机器人与仿真 – 开发者只需几小时的被动视频(例如 YouTube 演示),即可快速搭建新机器人手臂的控制模型,然后通过少量遥控示范快速适配。
  • 游戏 AI 与内容生成 – 游戏工作室可以训练能够理解“向左移动”或“跳跃”等语义的世界模型,适用于各种关卡设计,而无需为每个关卡手动制作动作标注。
  • 基于视频的 UI 自动化 – 自动化 UI 交互的工具(例如移动应用测试)可以从屏幕录制中学习通用的点击/拖拽潜在动作,并在新版本应用上以最小的再训练进行应用。
  • 跨领域迁移 – 由于潜在动作与可观察的效果相绑定,同一模型可复用于监控、体育分析或 AR/VR 场景,显著降低数据标注成本。

局限性与未来工作

  • 依赖冻结的编码器 – Δ‑特征的质量取决于预训练的自监督编码器;若编码器表现不佳,可能限制对齐的忠实度。
  • 时间粒度 – 极快或细微的动作可能产生较弱的 Δ‑信号,使其更难捕获。
  • 向 3‑D 控制的可扩展性 – 当前实验聚焦于 2‑D 视觉效果;将框架扩展到完整的 3‑D 姿态或力控制仍是一个未解的挑战。
  • 作者提出的未来方向 包括将编码器与对齐损失共同微调,探索多模态效果线索(音频、本体感受),以及将该方法应用于终身学习场景,在这些场景中新动作会持续出现。

作者

  • Yuxin Jiang
  • Yuchao Gu
  • Ivor W. Tsang
  • Mike Zheng Shou

论文信息

  • arXiv ID: 2602.10104v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 出版日期: 2026年2月10日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »