[Paper] DatBench：判别式、可信且高效的 VLM 评估

发布: 2周前 (2026年1月6日 GMT+8 02:07)

8 min read

原文: arXiv

Source: arXiv - 2601.02316v1

概述

论文 “DatBench: Discriminative, Faithful, and Efficient VLM Evaluations” 针对快速发展的视觉‑语言模型（VLM）领域中一个出人意料的棘手问题：我们如何可靠地衡量这些模型的真实水平？ 作者指出，许多流行的基准测试具有误导性、浪费性，或两者兼有，并推出了全新评估套件——DatBench——它更贴合真实场景使用，更善于发现性能差异，且运行成本大幅降低。

关键贡献

三大评估准则 – 可信度、可区分性和效率 – 被定义为视觉语言模型（VLM）基准的黄金标准。
系统性审查现有 VLM 测试，揭示了三类主要失效模式：(i) 鼓励猜测的多选题形式，(ii) “盲解”项目无需图像即可作答，(iii) 标注错误或含糊的样本。
以数据为中心的修复流水线，包括 (a) 将多选题转换为生成式提示，(b) 过滤掉盲解和噪声样本，(c) 精选出干净、高质量的子集。
DatBench‑Full – 包含 33 个数据集的完整套件，覆盖九类 VLM 能力（如对象定位、视觉推理、图像描述）。
DatBench（紧凑版） – 一个精炼的、具备高辨别力的子集，可实现最高 50 倍加速（平均 13 倍），同时保持区分不同质量模型的能力。
实证证据表明，清理后的基准能够揭示原始测试中隐藏的最高 35 % 的能力差距。

方法论

Failure‑Mode Diagnosis – 量化在流行的 VLM 基准中，有多少题目可以在不查看图像的情况下得到正确答案（在某些情况下高达 70 %），并测量标签噪声的程度（最高达 42 %）。
Transformation – 将多项选择题重新表述为开放式生成任务（例如，“图中显示的是什么？”），使模型无法依赖排除法来选择答案选项。
Filtering – 使用轻量级的“盲解器”（仅语言模型）标记并移除可以在没有视觉输入的情况下解答的题目。随后通过人工验证捕获模糊或标记错误的案例。
Benchmark Assembly – 将清理后的题目划分为九个能力类别（例如 VQA、视觉蕴含、区域定位）。发布两个版本：一个完整、详尽的集合，以及一个通过贪心优化挑选的紧凑、高辨别度子集，以在每单位计算资源下实现模型区分度最大化。
Evaluation Protocol – 在原始基准和 DatBench 版本上运行标准 VLM（如基于 CLIP 的模型、Flamingo、LLaVA），记录性能下降、计算时间以及辨别分数（例如成对秩相关系数）。

结果与发现

方面	原始基准	DatBench‑Full	DatBench（紧凑版）
平均准确率下降（转换为生成式后）	–	‑35 %（最大）	‑30 %（典型）
盲解率	高达 70 %	< 5 %	< 5 %
标签噪声率	高达 42 %	< 2 %	< 2 %
计算成本（每模型 GPU‑小时）	1×（基线）	1×（相同）	0.07×（≈13× 更快）
可区分性（模型间 Spearman 排名相关系数）	0.62	0.78	0.75

这意味着：当相同的 VLM 在清理后的生成式版本上进行评估时，它们的分数会急剧下降，暴露出隐藏的弱点。同时，紧凑版 DatBench 在几乎保持模型排序不变的情况下，大幅缩短评估时间。

Practical Implications

R&D pipelines become leaner – 团队现在可以在更短的时间内运行完整的 VLM 评估套件，从而释放计算资源用于模型训练和迭代。
More trustworthy model selection – 与真实任务保持一致的基准（没有猜测，没有无图像的捷径）让产品工程师相信高分会转化为下游性能（例如电商视觉搜索或 AI 辅助设计工具）。
Benchmark‑driven product roadmaps – 九大能力类别与常见应用领域（字幕生成、视觉问答、定位）对应清晰。企业可以在 DatBench 显示差距最大的地方优先改进。
Open‑source community standard – 通过发布完整版和精简版，作者提供了可直接替代广泛使用的 VLM 测试平台，促进可复现性和公平竞争。
Cost savings at scale – 对于评估数十种模型变体的大型实验室，13 倍的加速意味着每年在 GPU 计算上节省数百万美元。

限制与未来工作

模态范围 – DatBench 侧重于与文本配对的静态图像；视频‑语言或多模态音视频任务未被覆盖。
人工验证瓶颈 – 虽然盲解过滤器已实现自动化，但清理模糊标签仍需人工操作，若缺乏额外工具，难以在新数据集上规模化。
生成式评估指标 – 转向开放式生成会依赖语言模型打分（如 BLEU、ROUGE），其噪声较大；可以探索更稳健的相似度度量（如 CLIPScore）。
基准的动态演进 – 随着 VLM 能力超出已策划的数据集，未来工作应研究对抗性或分布外测试案例，以保持评估的挑战性。

结论：DatBench 为 VLM 评估的成长痛点提供了务实、以数据为中心的解决方案，能够更清晰地洞察模型优势，同时大幅降低计算成本——对研究者和工业实践者皆是双赢。

作者

Siddharth Joshi
Haoli Yin
Rishabh Adiga
Ricardo Monti
Aldo Carranza
Alex Fang
Alvin Deng
Amro Abbas
Brett Larsen
Cody Blakeney
Darren Teh
David Schwab
Fan Pan
Haakon Mongstad
Jack Urbanek
Jason Lee
Jason Telanoff
Josh Wills
Kaleigh Mentzer
Luke Merrick
Parth Doshi
Paul Burstein
Pratyush Maini
Scott Loftin
Spandan Das
Tony Jiang
Vineeth Dorna
Zhengping Wang
Bogdan Gaza
Ari Morcos
Matthew Leavitt

论文信息

arXiv ID: 2601.02316v1
分类: cs.LG, cs.AI
发布时间: 2026年1月5日
PDF: 下载 PDF

[Paper] DatBench：判别式、可信且高效的 VLM 评估

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理