[Paper] VideoWorld 2：从真实世界视频中学习可迁移的知识

发布: 2天前 (2026年2月11日 GMT+8 02:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.10102v1

Source: …

概述

论文 VideoWorld 2 解决了智能体的一个核心挑战：从原始、未标记的真实世界视频中提取可复用的知识，并在新任务中重新使用。通过将“事物的外观”与“它们的运动方式”分离，作者在复杂操作问题上实现了显著的成功提升——相较于之前基于视频的方法提升了最高 70 %——同时还能生成长时间、连贯的执行视频。

关键贡献

Dynamic‑enhanced Latent Dynamics Model (dLDM) – 一种两阶段架构，将视觉外观任务交给预训练的视频扩散模型，并学习一个聚焦于任务相关运动的紧凑潜在动力学空间。
首次大规模研究从原始真实视频中进行可迁移学习，扩展了之前仅限合成的 “VideoWorld” 基准。
自回归潜在策略学习，实现长时程推理和多秒执行视频的生成。
在两个方面进行实证验证： (1) 使用真实视频数据进行手工制作的操作任务； (2) 基于 Open‑X 数据集的机器人学习，在 CALVIN 基准上展示了显著提升。
开源发布 代码、数据和预训练模型，以促进可复现性和下游研究。

方法论

视觉外观建模 – 使用最先进的视频扩散模型（在大规模视频语料库上预训练）作为冻结的视觉编码器。它将每帧原始视频转换为高保真视觉潜在表示，保留纹理、光照和背景细节，而无需再次学习它们。
潜在动力学提取 (dLDM) – 将视觉潜在输入轻量级潜在动力学编码器，该编码器学习剥离外观，仅保留与运动相关的信息（例如手部轨迹、物体状态变化）。该编码器与解码器联合训练，后者重建原始视频，确保动力学代码足以进行准确的视频合成。
自回归策略建模 – 将提取的动力学代码视为时间序列，并使用 Transformer 风格的自回归网络进行建模。网络在给定过去代码的情况下预测下一个动力学代码，从而学习一个可以展开生成任意长动作序列的策略。
迁移到新任务 – 由于动力学空间已与视觉细节解耦，同一自回归策略可以在新的目标规范（例如“组装木块”）下进行条件化，并在光照、背景或摄像机角度不同的环境中执行。

整个管线可以在无标签视频片段上端到端训练，无需手动标注动作或物体状态。

结果与发现

评估	基线	VideoWorld 2	成功率提升
真实世界手工任务（多步骤装配）	38 %	66 %	+70 %
长时程视频生成（≥5 s）	碎片化，抖动	平滑，连贯	—
机器人操作（Open‑X → CALVIN）	45 %	71 %	+58 %

任务成功：VideoWorld 2 在任务成功率上始终优于之前的视频生成和潜在动力学方法，尤其是在需要精确动作序列的任务上。
视频质量：生成的执行视频在数十帧内保持视觉保真度，表明基于扩散的外观模型成功保留了真实感，而动力学模型驱动了合理的运动。
可转移性：从 Open‑X 数据集（包含日常操作视频的集合）学习的策略在 CALVIN 基准上提升了性能，证实潜在动力学表示能够跨领域泛化。

实际意义

机器人开发者 现在可以从公开可用的视频素材（例如 YouTube DIY 教程）中自举操作策略，无需手工标注动作，显著降低数据收集成本。
仿真到真实的迁移：由于动力学在视觉无关的潜在空间中学习，在合成或低质量视频上训练的策略可以以最小的微调迁移到真实机器人上。
长时程规划：自回归潜在策略能够生成延长的动作序列，为自主装配线、家庭助理机器人，甚至需要数秒规划的视频游戏 AI 开辟了可能。
内容创作：从紧凑的动力学代码合成连贯长视频的能力，可用于自动视频编辑、虚拟训练仿真，或生成真实的“假设情景”用于安全测试。

限制与未来工作

依赖强大的扩散模型：该方法假设可以使用高质量的预训练视频扩散模型；在编码器较弱的情况下性能可能下降。
对高度动态场景的可扩展性：极快的运动或严重遮挡仍然会挑战动态编码器，导致偶尔的预测漂移。
目标条件化粒度：当前实验使用相对简单的目标规范；更丰富的语言或符号目标仍是一个未解决的研究方向。
实时部署：自回归推理目前是离线的；需要针对低延迟控制回路进行优化，以实现机器人上的执行。

未来的工作可以探索扩散编码器的联合微调、层次化目标表示以及与强化学习的集成，以实现感知、规划和执行之间的实时闭环。

作者

Zhongwei Ren
Yunchao Wei
Xiao Yu
Guixun Luo
Yao Zhao
Bingyi Kang
Jiashi Feng
Xiaojie Jin

论文信息

arXiv ID: 2602.10102v1
分类: cs.CV
发表时间: 2026年2月10日
PDF: 下载 PDF

[Paper] VideoWorld 2：从真实世界视频中学习可迁移的知识

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 惊喜之笔：渐进式语义幻觉在 Vector Sketching 中

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 面向 On-Policy SFT：分布判别理论及其在 LLM 训练中的应用