[Paper] WorldArena:一个统一的基准,用于评估具身世界模型的感知与功能效用

发布: (2026年2月10日 GMT+8 02:09)
7 分钟阅读
原文: arXiv

请提供您希望翻译的具体文本内容(例如摘要、正文等),我会按照要求保留 Source 链接并将其余部分翻译成简体中文。谢谢!

概览

本文介绍了 WorldArena,这是首个大规模基准,用于评估具身世界模型不仅在视频预测的真实感方面的表现,还在代理需要 思考、规划和行动 时,这些预测的实用性。通过统一感知评估和功能评估,作者揭示了一个隐藏的 “感知‑功能差距”,这对构建下一代具身 AI 系统的开发者具有重要影响。

关键贡献

  • 统一基准(WorldArena),同时衡量:
    1. 视频感知质量(16 项指标,涵盖保真度、时间一致性、语义等)。
    2. 三种下游角色的功能效用:数据引擎、策略评估器和行动规划器。
    3. 人机交互的主观评估,以确保真实世界相关性。
  • EWMScore,一个可解释的单一指数,聚合多维结果,便于一目了然地比较模型。
  • 全面评估 14 种最先进的具身世界模型,揭示高视觉质量 并不 保证任务性能强大。
  • 公开排行榜和开源代码https://worldarena.ai),以促进可复现的研究和持续进步。

方法论

  1. Dataset & Scenarios – WorldArena 基于多个广泛使用的模拟环境(例如 Habitat、AI2‑THOR),并定义了一套标准任务,如导航、目标搜索和操作。
  2. Perceptual Scoring – 对每个预测的视频序列,基准计算 16 项指标,分为六个子维度(像素级保真度、运动平滑度、语义一致性等)。这些包括标准的计算机视觉评分(PSNR、SSIM、LPIPS)以及捕捉时序和对象层面一致性的最新指标。
  3. Functional Evaluation – 同一世界模型被接入三个功能流水线:
    • Data Engine – 为下游强化学习代理生成合成经验;通过代理的学习曲线衡量性能。
    • Policy Evaluator – 通过模拟结果对候选策略打分;准确性与真实最优策略进行比较。
    • Action Planner – 直接为任务选择动作;记录成功率和效率。
  4. Human Judgment – 通过众包研究让参与者对模型输出的真实感和任务实用性进行排名,提供主观的合理性检查。
  5. EWMScore Calculation – 所有指标进行归一化、加权(权重来源于小规模验证集以反映实际重要性),并汇总为 0–100 的单一分数。

结果与发现

  • 感知‑功能差距 – 在视觉指标上表现最佳的模型(例如,95 PSNR)在功能任务上往往排名靠后(≈30 % 成功率)。相反,某些视频质量一般的模型却能实现竞争性的规划性能。
  • 角色特定优势 – 某些架构在作为 data engines(生成多样、高熵轨迹)方面表现出色,而另一些则更适合作为 action planners(对短时预测的动力学更准确)。
  • 人工 vs. 自动评分 – 人工排名与功能指标的相关性很高 (r ≈ 0.78),但与纯感知评分的相关性较低 (r ≈ 0.32),凸显任务导向评估的重要性。
  • EWMScore 排名 – 聚合排行榜显示“最先进”顺序被重新洗牌,少数被低估的模型脱颖而出,成为最平衡的模型。

实际意义

  • Model Selection for Products – 开发机器人或 AR/VR 代理的开发者在选择世界模型时,应优先考虑功能基准(例如规划成功率),而不是原始视频质量。
  • Data‑Efficient Training – 使用在数据引擎评分中表现出色的世界模型可以显著减少强化学习代理所需的真实交互量,从而降低仿真到真实的流水线成本。
  • Safety & Reliability – 功能评估能够揭示纯视觉指标忽略的失效模式(例如不真实的物体物理),帮助工程师构建更安全的自主系统。
  • Standardized Reporting – EWMScore 提供了一个单一且可比较的数值,可在产品规格中报告,类似于图形的“FPS”或翻译的“BLEU”。
  • Community Collaboration – 开放的排行榜鼓励持续改进,并使初创公司或开源项目能够轻松地与学术基准进行对标。

Limitations & Future Work

  • Simulation Bias – WorldArena 依赖现有仿真器;仿真与真实世界之间的领域差距可能限制研究结果的可转移性。
  • Metric Weighting – 当前的 EWMScore 加权方案来源于验证集,可能无法反映每个行业的优先级(例如,延迟与准确性)。
  • Scalability of Human Evaluation – 主观评估成本高,可能无法扩展到成千上万的模型提交。
  • Future Directions suggested by the authors include extending the benchmark to multi‑agent scenarios, incorporating real‑world sensor modalities (e.g., LiDAR), and exploring adaptive weighting that tailors EWMScore to specific application domains.

(译者注:保持原文中加粗和项目符号格式不变)

作者

  • Yu Shang
  • Zhuohang Li
  • Yiding Ma
  • Weikang Su
  • Xin Jin
  • Ziyou Wang
  • Xin Zhang
  • Yinzhou Tang
  • Chen Gao
  • Wei Wu
  • Xihui Liu
  • Dhruv Shah
  • Zhaoxiang Zhang
  • Zhibo Chen
  • Jun Zhu
  • Yonghong Tian
  • Tat‑Seng Chua
  • Wenwu Zhu
  • Yong Li

论文信息

  • arXiv ID: 2602.08971v1
  • 分类: cs.CV, cs.RO
  • 出版日期: 2026年2月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »