[Paper] VisualActBench：VLM 能像人类一样看和行动吗？

发布: 2个月前 (2025年12月11日 GMT+8 02:36)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.09907v1

概览

本文提出了 VisualActBench，一个新基准，要求视觉‑语言模型（VLM）不仅描述所见，还要 决定该做什么。作者将 1,074 段真实世界视频与 3,733 条人工标注的动作配对，构建了用于“视觉动作推理”的测试平台——即 AI 在没有任何文本提示的情况下主动生成合理、优先级感知的动作的能力。

关键贡献

新任务定义 – “视觉动作推理”，评估仅凭视觉输入进行主动决策的能力。
大规模基准 – VisualActBench 包含 1,074 段视频，覆盖四种日常场景（如厨房、办公室、户外、家庭助理）。
丰富的标注体系 – 每个动作都标注有 动作优先级等级 (APL) 和 主动 vs. 被动 标签，支持对齐人类推理的细粒度评估。
全面评估 – 对 29 种最先进的 VLM（包括 GPT‑4o、LLaVA、Gemini‑Vision 等）进行基准测试，揭示了在主动、高优先级动作生成方面的系统性缺口。
开放资源 – 数据集、评估脚本和排行榜已公开，旨在推动社区在视觉中心代理方面的进展。

方法论

场景选择 – 选取四个真实领域（如烹饪、办公、家庭维修、户外导航），以捕获多样的上下文线索。
视频收集与预处理 – 从公开数据集获取 5–15 秒的短片，并手动裁剪至仅包含单一决策点。
人工标注 – 众包工作者观看每段视频并写出 最合适 的下一步动作，然后标注：
- APL（1 = 低紧急度，5 = 关键）以及
- 类型（主动 – 预见性，被动 – 对事件的响应）。
模型提示 – VLM 仅接收原始视频帧（或短帧序列），被要求输出一条动作句子。未提供任何文本提示或任务描述，模拟“看见‑行动”情境。
评分 – 将生成的动作与人工参考进行对比，采用混合度量：
- 语义相似度（BERTScore）衡量语言忠实度，
- APL 对齐（对优先级不匹配进行惩罚）以及 类型匹配（主动 vs. 被动）。
  最终得分综合这些组件，以反映正确性和类人决策质量。

结果与发现

Model	Overall Score (0‑100)	Proactive‑High‑APL Accuracy
GPT‑4o (vision)	71.4	58 %
Gemini‑Vision	64.2	45 %
LLaVA‑13B	48.7	22 %
Other open‑source VLMs (average)	39.1	15 %
Human baseline	94.3	92 %

前沿模型（GPT‑4o、Gemini‑Vision）优于旧的开源 VLM，但仍远低于人类，尤其在 高优先级主动 动作上表现不足。
大多数模型倾向于输出被动描述（如“此人拿起杯子”），而非 预见性 动作（如“为下一杯准备干净的杯子”）。
错误常源于 上下文盲点（例如缺失时间线索）和 价值感知缺失（忽视 APL 所指示的紧急性）。

实际意义

机器人与辅助设备 – 部署能够决定下一步的 VLM（例如能够预判用户需求的厨房机器人）需要弥合 VisualActBench 所揭示的主动推理差距。
企业自动化 – 用于监控工作空间（如安全合规）的视觉中心代理，可通过 APL‑感知推理来优先处理警报。
人机协作工具 – 基于实时视频流提供下一步建议的 UI 助手（如远程支持）需要模型理解的不仅是“正在发生什么”，还有“接下来应发生什么”。
基准驱动开发 – VisualActBench 为在强化学习从人类反馈（RLHF）中加入优先级和主动性信号的微调提供了明确目标。

局限性与未来工作

数据集范围 – 虽然场景多样，但四个场景仍覆盖有限的日常任务；缺少罕见或安全关键领域（如医疗操作）。
标注主观性 – APL 与主动/被动标签在标注者之间可能存在差异，作者报告的标注者间一致性约为 0.78，仍有噪声空间。
模型输入限制 – 当前评估使用短帧序列；更长的时间上下文（如多秒视频流）可能对更丰富的推理必不可少。
未来方向 – 作者建议扩展至多模态反馈（音频、触觉），加入显式价值学习目标，并探索逐步引入高优先级动作的课程式训练。

VisualActBench 照亮了视觉中心 AI 的下一个前沿：从被动描述走向主动、符合人类价值的决策。对构建下一代智能体的开发者而言，该基准既是诊断工具，也是实现所需能力的路线图。

作者

Daohan Zhang
Pai Liu
Xiaofei Zhou
Yuan Ge
Guangchen Lan
Jing Bi
Christopher Brinton
Ehsan Hoque
Jiebo Luo

论文信息

arXiv ID: 2512.09907v1
Categories: cs.CV
Published: December 10, 2025
PDF: Download PDF

[Paper] VisualActBench：VLM 能像人类一样看和行动吗？

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

[Paper] V-RGBX：视频编辑对内在属性的精确控制

[Paper] Particulate: 前馈 3D 对象关节化

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成