[Paper] VisualActBench:VLM 能像人类一样看和行动吗?
发布: (2025年12月11日 GMT+8 02:36)
6 min read
原文: arXiv
Source: arXiv - 2512.09907v1
概览
本文提出了 VisualActBench,一个新基准,要求视觉‑语言模型(VLM)不仅描述所见,还要 决定该做什么。作者将 1,074 段真实世界视频与 3,733 条人工标注的动作配对,构建了用于“视觉动作推理”的测试平台——即 AI 在没有任何文本提示的情况下主动生成合理、优先级感知的动作的能力。
关键贡献
- 新任务定义 – “视觉动作推理”,评估仅凭视觉输入进行主动决策的能力。
- 大规模基准 – VisualActBench 包含 1,074 段视频,覆盖四种日常场景(如厨房、办公室、户外、家庭助理)。
- 丰富的标注体系 – 每个动作都标注有 动作优先级等级 (APL) 和 主动 vs. 被动 标签,支持对齐人类推理的细粒度评估。
- 全面评估 – 对 29 种最先进的 VLM(包括 GPT‑4o、LLaVA、Gemini‑Vision 等)进行基准测试,揭示了在主动、高优先级动作生成方面的系统性缺口。
- 开放资源 – 数据集、评估脚本和排行榜已公开,旨在推动社区在视觉中心代理方面的进展。
方法论
- 场景选择 – 选取四个真实领域(如烹饪、办公、家庭维修、户外导航),以捕获多样的上下文线索。
- 视频收集与预处理 – 从公开数据集获取 5–15 秒的短片,并手动裁剪至仅包含单一决策点。
- 人工标注 – 众包工作者观看每段视频并写出 最合适 的下一步动作,然后标注:
- APL(1 = 低紧急度,5 = 关键)以及
- 类型(主动 – 预见性, 被动 – 对事件的响应)。
- 模型提示 – VLM 仅接收原始视频帧(或短帧序列),被要求输出一条动作句子。未提供任何文本提示或任务描述,模拟“看见‑行动”情境。
- 评分 – 将生成的动作与人工参考进行对比,采用混合度量:
- 语义相似度(BERTScore)衡量语言忠实度,
- APL 对齐(对优先级不匹配进行惩罚)以及 类型匹配(主动 vs. 被动)。
最终得分综合这些组件,以反映正确性和类人决策质量。
结果与发现
| Model | Overall Score (0‑100) | Proactive‑High‑APL Accuracy |
|---|---|---|
| GPT‑4o (vision) | 71.4 | 58 % |
| Gemini‑Vision | 64.2 | 45 % |
| LLaVA‑13B | 48.7 | 22 % |
| Other open‑source VLMs (average) | 39.1 | 15 % |
| Human baseline | 94.3 | 92 % |
- 前沿模型(GPT‑4o、Gemini‑Vision)优于旧的开源 VLM,但仍远低于人类,尤其在 高优先级主动 动作上表现不足。
- 大多数模型倾向于输出 被动 描述(如“此人拿起杯子”),而非 预见性 动作(如“为下一杯准备干净的杯子”)。
- 错误常源于 上下文盲点(例如缺失时间线索)和 价值感知缺失(忽视 APL 所指示的紧急性)。
实际意义
- 机器人与辅助设备 – 部署能够 决定 下一步的 VLM(例如能够预判用户需求的厨房机器人)需要弥合 VisualActBench 所揭示的主动推理差距。
- 企业自动化 – 用于监控工作空间(如安全合规)的视觉中心代理,可通过 APL‑感知推理来优先处理警报。
- 人机协作工具 – 基于实时视频流提供下一步建议的 UI 助手(如远程支持)需要模型理解的不仅是“正在发生什么”,还有“接下来应发生什么”。
- 基准驱动开发 – VisualActBench 为在强化学习从人类反馈(RLHF)中加入优先级和主动性信号的微调提供了明确目标。
局限性与未来工作
- 数据集范围 – 虽然场景多样,但四个场景仍覆盖有限的日常任务;缺少罕见或安全关键领域(如医疗操作)。
- 标注主观性 – APL 与主动/被动标签在标注者之间可能存在差异,作者报告的标注者间一致性约为 0.78,仍有噪声空间。
- 模型输入限制 – 当前评估使用短帧序列;更长的时间上下文(如多秒视频流)可能对更丰富的推理必不可少。
- 未来方向 – 作者建议扩展至多模态反馈(音频、触觉),加入显式价值学习目标,并探索逐步引入高优先级动作的课程式训练。
VisualActBench 照亮了视觉中心 AI 的下一个前沿:从被动描述走向主动、符合人类价值的决策。对构建下一代智能体的开发者而言,该基准既是诊断工具,也是实现所需能力的路线图。
作者
- Daohan Zhang
- Pai Liu
- Xiaofei Zhou
- Yuan Ge
- Guangchen Lan
- Jing Bi
- Christopher Brinton
- Ehsan Hoque
- Jiebo Luo
论文信息
- arXiv ID: 2512.09907v1
- Categories: cs.CV
- Published: December 10, 2025
- PDF: Download PDF