[Paper] 视觉提示基准出乎意料地脆弱

发布: (2025年12月20日 GMT+8 02:26)
7 min read
原文: arXiv

Source: arXiv - 2512.17875v1

概述

该论文揭示了当今视觉语言模型(VLM)一个令人惊讶的弱点:当基准测试依赖于 visual prompting——即告诉模型观察位置的微小标记(例如彩色框)时,对这些标记进行细微、看似无关的更改就能显著改变模型排名。通过系统地调整标记的颜色、大小,甚至 JPEG 压缩,作者展示了基准结果可以被操纵,从而质疑了许多当前 VLM 排行榜的可靠性。

关键贡献

  • 经验脆弱性分析 对九个流行的开源和闭源 VLM 在两个视觉提示任务上的表现进行分析。
  • 展示“基准黑客”:简单的视觉标记微调(颜色、大小)即可让较弱的模型(例如 InternVL‑3‑8B)超越更大的专有系统。
  • 识别低层推理因素(JPEG 压缩、API 图像预处理),这些因素对视觉提示基准的影响不成比例。
  • 创建 VPBench,一个包含 16 种标记变体及配套分析工具的精心策划、更大的基准,以降低不稳定性。
  • 开源发布 数据集和评估脚本(https://lisadunlap.github.io/vpbench/),实现可复现且更稳健的 VLM 测试。

方法论

  1. 基准选择 – 作者复用了两个已有的视觉提示数据集(例如 BLINK),其中每个问题都配有放置在图像上的彩色标记。
  2. 模型套件 – 评估了九个 VLM,涵盖开源(InternVL‑3‑8B、LLaVA 等)和闭源商业 API(Gemini 2.5 Pro、GPT‑4V 等)。
  3. 提示扰动 – 对每张图像的视觉标记在多个维度上系统性地进行修改:
    • 颜色(红 → 蓝、绿等)
    • 大小(极小 → 稍大)
    • 不透明度 / 边框样式
    • 压缩(不同 JPEG 质量等级)
  4. 评估流程 – 将相同的文本问题与修改后的图像一起发送给每个模型;答案使用原始真实标签进行评分。
  5. 统计分析 – 对每种扰动计算排名、平均准确率和方差,以量化敏感性。
  6. 基准重新设计 – 基于观察到的敏感性,作者将所有标记变体聚合为一个更大的基准(VPBench),并提供脚本来计算 稳健 分数(例如,对变体取平均)。

结果与发现

方面观察
标记颜色将颜色从红色切换为蓝色导致某些模型的准确率下降最高达 30 %,而其他模型则有所提升,重新排列了排行榜。
标记大小将标记略微放大(约 10 px)使开源模型 InternVL‑3‑8B 在原始基准上达到了 与 Gemini 2.5 Pro 相当 的水平。
JPEG 压缩将压缩质量从 100 调整到 70 会改变 9 个模型中 5 个的排名,尽管视觉内容在语义上保持一致。
整体方差在所有扰动下,模型得分的标准差 比传统(未提示)VLM 基准高出 2–3 倍
VPBench 影响在聚合的 16 变体 VPBench 上评估时,方差下降了 ≈45 %,且排名在各种扰动下更为稳定。

关键结论是,视觉提示引入了模型依赖的隐藏“视觉先验”,使其容易受到与实际推理任务无关的低层视觉线索的影响。

实际意义

  • Benchmark design:构建 VLM 评估套件的团队应避免使用单一变体的视觉提示;相反,应随机化标记属性或使用多种变体(如 VPBench 所做的那样)。
  • Model debugging:开发者可以使用提供的分析工具诊断模型是否对标记的颜色/大小过拟合,而不是对图像内容的真实理解。
  • API usage:调用商业 VLM API 时,要注意图像预处理(例如自动 JPEG 压缩)可能会无意中偏向结果——建议使用无损格式或控制压缩水平。
  • Product reliability:依赖 VLM 进行视觉 QA 的应用(如文档分析、医学影像助手)不应假设对轻微视觉伪影的鲁棒性;必须通过多样化提示进行充分测试。
  • Fair competition:对 VLM 排名的排行榜应披露视觉提示规格,并可能报告 鲁棒性得分(在多种标记风格上取平均的性能)。

局限性与未来工作

  • 任务范围:本研究聚焦于两个视觉提示任务;更广泛的任务族(例如视频问答、多模态推理)可能表现出不同的敏感性。
  • 模型多样性:虽然测试了九种模型,但快速扩展的 VLM 生态系统意味着更新的架构可能会有不同的行为。
  • 人类感知基线:本文未将模型脆弱性与人类在相同扰动提示下的表现进行比较,因而留下了观察到的效果是否仅为机器特有的未解之问。
  • 缓解策略:VPBench 能降低方差但并未消除它;未来工作可以探索训练时正则化(例如,标记无关的数据增强)以使模型本身具备鲁棒性。

通过强调这些不足,作者邀请社区开发更稳定的评估实践,并设计真正能够“超越表面视觉线索”进行感知的 VLM。

作者

  • Haiwen Feng
  • Long Lian
  • Lisa Dunlap
  • Jiahao Shu
  • XuDong Wang
  • Renhao Wang
  • Trevor Darrell
  • Alane Suhr
  • Angjoo Kanazawa

论文信息

  • arXiv ID: 2512.17875v1
  • Categories: cs.CV, cs.LG
  • Published: December 19, 2025
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »