[Paper] 学习潜在动作世界模型 在真实环境中

发布: (2026年1月9日 GMT+8 02:55)
7 min read
原文: arXiv

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

论文 “Learning Latent Action World Models In The Wild” 解决了自主智能体的一个核心难题:在没有明确动作标签的情况下,如何预测动作的结果。通过在多样化的真实世界视频素材上直接训练世界模型,作者展示了可以推断出一个紧凑的“潜在动作”空间,并可用于规划——而且从未使用过人工标注的动作标签。

关键贡献

  • 在野外视频上的潜在动作世界建模 – 扩展了之前仅限于仿真或严格受控数据集的工作。
  • 连续、受约束的潜在动作表示 – 表明有界的连续空间比离散向量量化码更能捕捉复杂的现实世界运动。
  • 跨视频动作迁移 – 学习到的潜在动作可以应用于不同视频(例如,将人物移动到房间),即使摄像机视角和背景不同。
  • 空间局部化的动作嵌入 – 在缺乏共享具身性的情况下,模型会自动将动作相对于摄像机进行定位。
  • 将已知动作映射到潜在动作的控制器 – 提供了一个通用接口,使下游规划器能够像使用常规动作集合一样使用潜在空间,性能可与完全监督的基线相媲美。

方法论

  1. 数据收集 – 使用大规模、未经筛选的视频语料库(例如 YouTube 剪辑、第一人称录像),刻意避免任何动作标注。
  2. 世界模型骨干 – 视频预测网络(例如卷积‑LSTM 或基于 transformer 的编码‑解码器)学习在给定潜在动作向量的情况下预测未来帧。
  3. 潜在动作编码器 – 不直接使用真实动作,而是让模型学习从低维连续向量 a ∈ ℝⁿ 到预测帧的映射。该向量被 约束(例如通过有界的 tanh 激活)以保持可解释性和稳定性。
  4. 训练目标
    • 重建损失(像素级或感知层面)以确保帧预测的准确性。
    • 时间一致性 以鼓励平滑的动作轨迹。
    • 动作正则化(例如向先验的 KL‑散度)以保持潜在空间的紧凑。
  5. 控制器学习 – 一个独立的轻量网络学习确定性映射 π(s, a_known) → a_latent,使开发者指定的动作(例如 “向前移动 0.5 m”)能够转换为世界模型能够理解的潜在代码。
  6. 评估 – 作者将连续潜在动作与向量量化(离散)替代方案进行比较,并将规划性能与完全监督、动作条件化的基线进行基准测试。

结果与发现

指标潜在动作模型(连续)向量量化版本完全监督基线
帧预测 PSNR(在野生视频上)比 VQ 高 +3.2 dB与连续相比 -0.8 dB可比
动作转移成功率(例如插入人物)78 % 正确放置45 %82 %(监督)
规划成功率(达到目标状态)71 %58 %73 %
样本效率(收敛所需剧集)比 VQ 少 1.4 倍与监督相似

要点:连续、受限的潜在动作比离散码更好地捕捉真实世界运动的细微差别,并且它们实现了跨视频转移和规划性能,堪比使用显式动作标签训练的模型。

Practical Implications

  • Data‑efficient robotics & AR – Companies can bootstrap world models from existing video archives (e.g., dash‑cam footage, user‑generated content) without costly annotation pipelines.
  • Universal action interface – The controller that maps human‑readable commands to latent codes acts like an “API layer,” letting developers plug in any high‑level planner (MPC, RL, symbolic) without re‑training the world model.
  • Cross‑domain simulation‑to‑real transfer – Since the latent actions are learned from real footage, policies trained in simulation can be transferred more seamlessly by aligning their action embeddings with the learned latent space.
  • Content‑aware video editing – The ability to “move” agents across videos suggests new tools for automated video compositing, virtual cinematography, or synthetic data generation for training perception models.

限制与未来工作

  • 以相机为中心的定位 – 在没有共享具身性的情况下,动作仅相对于相机进行定位,限制了其在需要绝对世界坐标的任务中的适用性(例如在全局地图中的导航)。
  • 噪声与遮挡 – 野外视频包含光照变化、运动模糊以及不相关的演员,这仍可能干扰潜在动作编码器。
  • 控制器的可扩展性 – 将大量高层指令映射到潜在向量可能需要层次化或组合结构。
  • 评估范围 – 论文侧重于规划基准;更广泛的下游任务(例如语言引导的操作)仍待探索。

未来方向 包括集成显式几何信息(例如深度传感器)以实现与具身性无关的定位,扩展潜在空间以支持层次化动作,并在大规模行业视频流(监控、体育分析、自动驾驶)上测试该框架。

作者

  • Quentin Garrido
  • Tushar Nagarajan
  • Basile Terver
  • Nicolas Ballas
  • Yann LeCun
  • Michael Rabbat

论文信息

  • arXiv ID: 2601.05230v1
  • 分类: cs.AI, cs.CV
  • 发布日期: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »