[Paper] VisualActBench:VLM 能像人类一样看和行动吗?

发布: (2025年12月11日 GMT+8 02:36)
6 min read
原文: arXiv

Source: arXiv - 2512.09907v1

概览

本文提出了 VisualActBench,一个新基准,要求视觉‑语言模型(VLM)不仅描述所见,还要 决定该做什么。作者将 1,074 段真实世界视频与 3,733 条人工标注的动作配对,构建了用于“视觉动作推理”的测试平台——即 AI 在没有任何文本提示的情况下主动生成合理、优先级感知的动作的能力。

关键贡献

  • 新任务定义 – “视觉动作推理”,评估仅凭视觉输入进行主动决策的能力。
  • 大规模基准 – VisualActBench 包含 1,074 段视频,覆盖四种日常场景(如厨房、办公室、户外、家庭助理)。
  • 丰富的标注体系 – 每个动作都标注有 动作优先级等级 (APL)主动 vs. 被动 标签,支持对齐人类推理的细粒度评估。
  • 全面评估 – 对 29 种最先进的 VLM(包括 GPT‑4o、LLaVA、Gemini‑Vision 等)进行基准测试,揭示了在主动、高优先级动作生成方面的系统性缺口。
  • 开放资源 – 数据集、评估脚本和排行榜已公开,旨在推动社区在视觉中心代理方面的进展。

方法论

  1. 场景选择 – 选取四个真实领域(如烹饪、办公、家庭维修、户外导航),以捕获多样的上下文线索。
  2. 视频收集与预处理 – 从公开数据集获取 5–15 秒的短片,并手动裁剪至仅包含单一决策点。
  3. 人工标注 – 众包工作者观看每段视频并写出 最合适 的下一步动作,然后标注:
    • APL(1 = 低紧急度,5 = 关键)以及
    • 类型(主动 – 预见性, 被动 – 对事件的响应)。
  4. 模型提示 – VLM 仅接收原始视频帧(或短帧序列),被要求输出一条动作句子。未提供任何文本提示或任务描述,模拟“看见‑行动”情境。
  5. 评分 – 将生成的动作与人工参考进行对比,采用混合度量:
    • 语义相似度(BERTScore)衡量语言忠实度,
    • APL 对齐(对优先级不匹配进行惩罚)以及 类型匹配(主动 vs. 被动)。
      最终得分综合这些组件,以反映正确性和类人决策质量。

结果与发现

ModelOverall Score (0‑100)Proactive‑High‑APL Accuracy
GPT‑4o (vision)71.458 %
Gemini‑Vision64.245 %
LLaVA‑13B48.722 %
Other open‑source VLMs (average)39.115 %
Human baseline94.392 %
  • 前沿模型(GPT‑4o、Gemini‑Vision)优于旧的开源 VLM,但仍远低于人类,尤其在 高优先级主动 动作上表现不足。
  • 大多数模型倾向于输出 被动 描述(如“此人拿起杯子”),而非 预见性 动作(如“为下一杯准备干净的杯子”)。
  • 错误常源于 上下文盲点(例如缺失时间线索)和 价值感知缺失(忽视 APL 所指示的紧急性)。

实际意义

  • 机器人与辅助设备 – 部署能够 决定 下一步的 VLM(例如能够预判用户需求的厨房机器人)需要弥合 VisualActBench 所揭示的主动推理差距。
  • 企业自动化 – 用于监控工作空间(如安全合规)的视觉中心代理,可通过 APL‑感知推理来优先处理警报。
  • 人机协作工具 – 基于实时视频流提供下一步建议的 UI 助手(如远程支持)需要模型理解的不仅是“正在发生什么”,还有“接下来应发生什么”。
  • 基准驱动开发 – VisualActBench 为在强化学习从人类反馈(RLHF)中加入优先级和主动性信号的微调提供了明确目标。

局限性与未来工作

  • 数据集范围 – 虽然场景多样,但四个场景仍覆盖有限的日常任务;缺少罕见或安全关键领域(如医疗操作)。
  • 标注主观性 – APL 与主动/被动标签在标注者之间可能存在差异,作者报告的标注者间一致性约为 0.78,仍有噪声空间。
  • 模型输入限制 – 当前评估使用短帧序列;更长的时间上下文(如多秒视频流)可能对更丰富的推理必不可少。
  • 未来方向 – 作者建议扩展至多模态反馈(音频、触觉),加入显式价值学习目标,并探索逐步引入高优先级动作的课程式训练。

VisualActBench 照亮了视觉中心 AI 的下一个前沿:从被动描述走向主动、符合人类价值的决策。对构建下一代智能体的开发者而言,该基准既是诊断工具,也是实现所需能力的路线图。

作者

  • Daohan Zhang
  • Pai Liu
  • Xiaofei Zhou
  • Yuan Ge
  • Guangchen Lan
  • Jing Bi
  • Christopher Brinton
  • Ehsan Hoque
  • Jiebo Luo

论文信息

  • arXiv ID: 2512.09907v1
  • Categories: cs.CV
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »