[Paper] DatBench:判别式、可信且高效的 VLM 评估
发布: (2026年1月6日 GMT+8 02:07)
8 min read
原文: arXiv
Source: arXiv - 2601.02316v1
概述
论文 “DatBench: Discriminative, Faithful, and Efficient VLM Evaluations” 针对快速发展的视觉‑语言模型(VLM)领域中一个出人意料的棘手问题:我们如何可靠地衡量这些模型的真实水平? 作者指出,许多流行的基准测试具有误导性、浪费性,或两者兼有,并推出了全新评估套件——DatBench——它更贴合真实场景使用,更善于发现性能差异,且运行成本大幅降低。
关键贡献
- 三大评估准则 – 可信度、可区分性和效率 – 被定义为视觉语言模型(VLM)基准的黄金标准。
- 系统性审查现有 VLM 测试,揭示了三类主要失效模式:(i) 鼓励猜测的多选题形式,(ii) “盲解”项目无需图像即可作答,(iii) 标注错误或含糊的样本。
- 以数据为中心的修复流水线,包括 (a) 将多选题转换为生成式提示,(b) 过滤掉盲解和噪声样本,(c) 精选出干净、高质量的子集。
- DatBench‑Full – 包含 33 个数据集的完整套件,覆盖九类 VLM 能力(如对象定位、视觉推理、图像描述)。
- DatBench(紧凑版) – 一个精炼的、具备高辨别力的子集,可实现最高 50 倍加速(平均 13 倍),同时保持区分不同质量模型的能力。
- 实证证据表明,清理后的基准能够揭示原始测试中隐藏的最高 35 % 的能力差距。
方法论
- Failure‑Mode Diagnosis – 量化在流行的 VLM 基准中,有多少题目可以在不查看图像的情况下得到正确答案(在某些情况下高达 70 %),并测量标签噪声的程度(最高达 42 %)。
- Transformation – 将多项选择题重新表述为开放式生成任务(例如,“图中显示的是什么?”),使模型无法依赖排除法来选择答案选项。
- Filtering – 使用轻量级的“盲解器”(仅语言模型)标记并移除可以在没有视觉输入的情况下解答的题目。随后通过人工验证捕获模糊或标记错误的案例。
- Benchmark Assembly – 将清理后的题目划分为九个能力类别(例如 VQA、视觉蕴含、区域定位)。发布两个版本:一个完整、详尽的集合,以及一个通过贪心优化挑选的紧凑、高辨别度子集,以在每单位计算资源下实现模型区分度最大化。
- Evaluation Protocol – 在原始基准和 DatBench 版本上运行标准 VLM(如基于 CLIP 的模型、Flamingo、LLaVA),记录性能下降、计算时间以及辨别分数(例如成对秩相关系数)。
结果与发现
| 方面 | 原始基准 | DatBench‑Full | DatBench(紧凑版) |
|---|---|---|---|
| 平均准确率下降(转换为生成式后) | – | ‑35 %(最大) | ‑30 %(典型) |
| 盲解率 | 高达 70 % | < 5 % | < 5 % |
| 标签噪声率 | 高达 42 % | < 2 % | < 2 % |
| 计算成本(每模型 GPU‑小时) | 1×(基线) | 1×(相同) | 0.07×(≈13× 更快) |
| 可区分性(模型间 Spearman 排名相关系数) | 0.62 | 0.78 | 0.75 |
这意味着:当相同的 VLM 在清理后的生成式版本上进行评估时,它们的分数会急剧下降,暴露出隐藏的弱点。同时,紧凑版 DatBench 在几乎保持模型排序不变的情况下,大幅缩短评估时间。
Practical Implications
- R&D pipelines become leaner – 团队现在可以在更短的时间内运行完整的 VLM 评估套件,从而释放计算资源用于模型训练和迭代。
- More trustworthy model selection – 与真实任务保持一致的基准(没有猜测,没有无图像的捷径)让产品工程师相信高分会转化为下游性能(例如电商视觉搜索或 AI 辅助设计工具)。
- Benchmark‑driven product roadmaps – 九大能力类别与常见应用领域(字幕生成、视觉问答、定位)对应清晰。企业可以在 DatBench 显示差距最大的地方优先改进。
- Open‑source community standard – 通过发布完整版和精简版,作者提供了可直接替代广泛使用的 VLM 测试平台,促进可复现性和公平竞争。
- Cost savings at scale – 对于评估数十种模型变体的大型实验室,13 倍的加速意味着每年在 GPU 计算上节省数百万美元。
限制与未来工作
- 模态范围 – DatBench 侧重于与文本配对的静态图像;视频‑语言或多模态音视频任务未被覆盖。
- 人工验证瓶颈 – 虽然盲解过滤器已实现自动化,但清理模糊标签仍需人工操作,若缺乏额外工具,难以在新数据集上规模化。
- 生成式评估指标 – 转向开放式生成会依赖语言模型打分(如 BLEU、ROUGE),其噪声较大;可以探索更稳健的相似度度量(如 CLIPScore)。
- 基准的动态演进 – 随着 VLM 能力超出已策划的数据集,未来工作应研究对抗性或分布外测试案例,以保持评估的挑战性。
结论:DatBench 为 VLM 评估的成长痛点提供了务实、以数据为中心的解决方案,能够更清晰地洞察模型优势,同时大幅降低计算成本——对研究者和工业实践者皆是双赢。
作者
- Siddharth Joshi
- Haoli Yin
- Rishabh Adiga
- Ricardo Monti
- Aldo Carranza
- Alex Fang
- Alvin Deng
- Amro Abbas
- Brett Larsen
- Cody Blakeney
- Darren Teh
- David Schwab
- Fan Pan
- Haakon Mongstad
- Jack Urbanek
- Jason Lee
- Jason Telanoff
- Josh Wills
- Kaleigh Mentzer
- Luke Merrick
- Parth Doshi
- Paul Burstein
- Pratyush Maini
- Scott Loftin
- Spandan Das
- Tony Jiang
- Vineeth Dorna
- Zhengping Wang
- Bogdan Gaza
- Ari Morcos
- Matthew Leavitt
论文信息
- arXiv ID: 2601.02316v1
- 分类: cs.LG, cs.AI
- 发布时间: 2026年1月5日
- PDF: 下载 PDF