[Paper] DatBench:判别式、可信且高效的 VLM 评估

发布: (2026年1月6日 GMT+8 02:07)
8 min read
原文: arXiv

Source: arXiv - 2601.02316v1

概述

论文 “DatBench: Discriminative, Faithful, and Efficient VLM Evaluations” 针对快速发展的视觉‑语言模型(VLM)领域中一个出人意料的棘手问题:我们如何可靠地衡量这些模型的真实水平? 作者指出,许多流行的基准测试具有误导性、浪费性,或两者兼有,并推出了全新评估套件——DatBench——它更贴合真实场景使用,更善于发现性能差异,且运行成本大幅降低。

关键贡献

  • 三大评估准则 – 可信度、可区分性和效率 – 被定义为视觉语言模型(VLM)基准的黄金标准。
  • 系统性审查现有 VLM 测试,揭示了三类主要失效模式:(i) 鼓励猜测的多选题形式,(ii) “盲解”项目无需图像即可作答,(iii) 标注错误或含糊的样本。
  • 以数据为中心的修复流水线,包括 (a) 将多选题转换为生成式提示,(b) 过滤掉盲解和噪声样本,(c) 精选出干净、高质量的子集。
  • DatBench‑Full – 包含 33 个数据集的完整套件,覆盖九类 VLM 能力(如对象定位、视觉推理、图像描述)。
  • DatBench(紧凑版) – 一个精炼的、具备高辨别力的子集,可实现最高 50 倍加速(平均 13 倍),同时保持区分不同质量模型的能力。
  • 实证证据表明,清理后的基准能够揭示原始测试中隐藏的最高 35 % 的能力差距。

方法论

  1. Failure‑Mode Diagnosis – 量化在流行的 VLM 基准中,有多少题目可以在不查看图像的情况下得到正确答案(在某些情况下高达 70 %),并测量标签噪声的程度(最高达 42 %)。
  2. Transformation – 将多项选择题重新表述为开放式生成任务(例如,“图中显示的是什么?”),使模型无法依赖排除法来选择答案选项。
  3. Filtering – 使用轻量级的“盲解器”(仅语言模型)标记并移除可以在没有视觉输入的情况下解答的题目。随后通过人工验证捕获模糊或标记错误的案例。
  4. Benchmark Assembly – 将清理后的题目划分为九个能力类别(例如 VQA、视觉蕴含、区域定位)。发布两个版本:一个完整、详尽的集合,以及一个通过贪心优化挑选的紧凑、高辨别度子集,以在每单位计算资源下实现模型区分度最大化。
  5. Evaluation Protocol – 在原始基准和 DatBench 版本上运行标准 VLM(如基于 CLIP 的模型、Flamingo、LLaVA),记录性能下降、计算时间以及辨别分数(例如成对秩相关系数)。

结果与发现

方面原始基准DatBench‑FullDatBench(紧凑版)
平均准确率下降(转换为生成式后)‑35 %(最大)‑30 %(典型)
盲解率高达 70 %< 5 %< 5 %
标签噪声率高达 42 %< 2 %< 2 %
计算成本(每模型 GPU‑小时)1×(基线)1×(相同)0.07×(≈13× 更快)
可区分性(模型间 Spearman 排名相关系数)0.620.780.75

这意味着:当相同的 VLM 在清理后的生成式版本上进行评估时,它们的分数会急剧下降,暴露出隐藏的弱点。同时,紧凑版 DatBench 在几乎保持模型排序不变的情况下,大幅缩短评估时间。

Practical Implications

  • R&D pipelines become leaner – 团队现在可以在更短的时间内运行完整的 VLM 评估套件,从而释放计算资源用于模型训练和迭代。
  • More trustworthy model selection – 与真实任务保持一致的基准(没有猜测,没有无图像的捷径)让产品工程师相信高分会转化为下游性能(例如电商视觉搜索或 AI 辅助设计工具)。
  • Benchmark‑driven product roadmaps – 九大能力类别与常见应用领域(字幕生成、视觉问答、定位)对应清晰。企业可以在 DatBench 显示差距最大的地方优先改进。
  • Open‑source community standard – 通过发布完整版和精简版,作者提供了可直接替代广泛使用的 VLM 测试平台,促进可复现性和公平竞争。
  • Cost savings at scale – 对于评估数十种模型变体的大型实验室,13 倍的加速意味着每年在 GPU 计算上节省数百万美元。

限制与未来工作

  • 模态范围 – DatBench 侧重于与文本配对的静态图像;视频‑语言或多模态音视频任务未被覆盖。
  • 人工验证瓶颈 – 虽然盲解过滤器已实现自动化,但清理模糊标签仍需人工操作,若缺乏额外工具,难以在新数据集上规模化。
  • 生成式评估指标 – 转向开放式生成会依赖语言模型打分(如 BLEU、ROUGE),其噪声较大;可以探索更稳健的相似度度量(如 CLIPScore)。
  • 基准的动态演进 – 随着 VLM 能力超出已策划的数据集,未来工作应研究对抗性或分布外测试案例,以保持评估的挑战性。

结论:DatBench 为 VLM 评估的成长痛点提供了务实、以数据为中心的解决方案,能够更清晰地洞察模型优势,同时大幅降低计算成本——对研究者和工业实践者皆是双赢。

作者

  • Siddharth Joshi
  • Haoli Yin
  • Rishabh Adiga
  • Ricardo Monti
  • Aldo Carranza
  • Alex Fang
  • Alvin Deng
  • Amro Abbas
  • Brett Larsen
  • Cody Blakeney
  • Darren Teh
  • David Schwab
  • Fan Pan
  • Haakon Mongstad
  • Jack Urbanek
  • Jason Lee
  • Jason Telanoff
  • Josh Wills
  • Kaleigh Mentzer
  • Luke Merrick
  • Parth Doshi
  • Paul Burstein
  • Pratyush Maini
  • Scott Loftin
  • Spandan Das
  • Tony Jiang
  • Vineeth Dorna
  • Zhengping Wang
  • Bogdan Gaza
  • Ari Morcos
  • Matthew Leavitt

论文信息

  • arXiv ID: 2601.02316v1
  • 分类: cs.LG, cs.AI
  • 发布时间: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »