[论文] Wow, wo, val! 全面 Embodied World Model Evaluation Turing Test

发布: 1个月前 (2026年1月8日 GMT+8 01:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.04137v1

概述

本文介绍了 WoW‑wo‑val，一个基准测试，用于对视频式世界模型进行“具身图灵测试”。通过评估这些模型在真实机器人操作数据上 感知、规划、预测、概括 以及执行的能力，作者揭示了当前生成式视频模型与具身代理需求之间的显著差距。

Embodied Turing Test benchmark (WoW‑wo‑val) 基于 609 个机器人操作情景，涵盖五项核心能力。
22‑metric evaluation suite 用于量化生成质量、时空一致性、物理推理和规划深度。
证明 高相关性 (Pearson > 0.93) 在复合指标与人类偏好之间，建立了可靠的人类图灵测试判断代理。
引入 Inverse Dynamic Model (IDM) Turing Test，衡量生成视频在真实世界中转化为可执行机器人动作的程度。
实证发现：最先进的视频基础模型在长时程规划上得分 ≈ 17/100，在物理一致性上得分 ≤ 68/100；在 IDM 测试中大多数模型成功率 ~0 %，而基线 WoW 模型达到 ≈ 41 %。

数据集构建 – 收集了 609 条来自机器人手臂的操作序列（抓取‑放置、工具使用等）。每个 episode 都标注了目标状态、子目标以及物理约束。
核心能力分类 – 定义了五种能力：
- 感知：识别物体和场景布局。
- 规划：生成多步动作序列。
- 预测：预测未来帧。
- 泛化：处理未见过的物体或配置。
- 执行：将视频预测转化为运动指令。
度量套件 – 为每种能力设计了自动化度量（例如用于视觉保真度的 SSIM/LPIPS、用于规划的轨迹偏差、用于一致性的物理引擎检查），并在部分视频上收集了人工偏好评分。
综合评分 – 对每个度量进行归一化并加权，生成整体的 “World‑Model Score”。该综合评分与人工排名的相关性验证了其有效性。
逆动力学模型（IDM）测试 – 训练一个 IDM，将预测的视频帧映射回关节力矩。IDM 试图在真实机器人上执行生成的计划；成功与否通过任务完成情况来衡量。

该流水线刻意保持模块化，研究者可以插入任意视频基础模型（如 VideoGPT、Make‑A‑Video 等），并获得完整的具身 AI 诊断套件。

关键要点