[Paper] 多模态大语言模型作为图像分类器

发布: 3天前 (2026年3月7日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.06578v1

请提供您希望翻译成简体中文的具体内容，我将按照要求保留源链接并保持原始格式进行翻译。

概述

该论文《Multimodal Large Language Models as Image Classifiers》研究了为何近期研究对多模态大型语言模型（MLLM）报告的分类结果差异巨大。作者指出，大部分差异源于评估协议的缺陷和噪声的真实标签，而非模型本身。通过修正这些问题，他们发现 MLLM 与监督视觉模型的表现距离比先前认为的要接近得多，甚至可以帮助人工标注者整理大型图像数据集。

关键贡献

系统审计评估协议 – 识别出三种常见偏差来源：(1) 丢弃超出预定义类别列表的模型输出，(2) 使用过于容易的多项选择干扰项，(3) 将开放世界预测映射到类别 ID 时的错误。
“隐藏”设计选择的定量分析 – 证明批量大小、图像顺序以及文本编码器的选择可以使准确率波动数个百分点。
ReGT 数据集 – 引入对 625 个 ImageNet‑1k 类别的多标签重新标注（ReGT），纠正噪声标签并提供更可靠的 MLLM 基准。
性能差距缩小 – 表明使用 ReGT，MLLM 的绝对准确率提升最高可达 +10.8 %，缩小了与全监督视觉模型的差距。
人机交互研究 – 证明在大约 50 % 的困难案例中，标注者会接受或采纳 MLLM 的预测，凸显模型在大规模数据集策划中的实用性。

方法论

基准审计 – 作者重新实现了最常见的 MLLM 分类流水线（零样本提示、多选和开放世界设置），并测量每一步对最终得分的影响。
错误类型分析 – 他们将失败归类为“列表外”预测、“弱干扰项”选择和“映射错误”，以确定性能被人为夸大或低估的具体环节。
设计选择实验 – 通过改变批量大小（1–64）、打乱图像顺序以及替换文本编码器（例如 CLIP‑text 与基于 LLaMA 的编码器），记录相应的准确率变化。
ReGT 创建 – 一组专家对 ImageNet‑1k 的子集重新标注，允许每张图像拥有多个正确标签（多标签）。该数据集作为更干净的评估真值。
人类‑MLLM 注释研究 – 在受控实验中，标注者看到图像及模型的 top‑k 预测；他们可以接受、编辑或拒绝该建议，并记录接受率。

所有步骤都提供了足够的细节，使实践者能够使用公开可得的 MLLM 检查点（如 LLaVA、MiniGPT‑4）和已发布的 ReGT 注释复现实验。

结果与发现

设置	基线准确率（ImageNet‑1k）	修正协议后的准确率	ReGT 带来的提升
零样本多项选择（原始）	38.2 %	44.7 %（↑6.5 pp）	–
开放世界映射（原始）	31.5 %	40.9 %（↑9.4 pp）	–
零样本 + ReGT	–	–	+10.8 pp（最高可达 55 % 总体）
人工‑MLLM 辅助标注	–	–	≈50 % 的困难案例接受模型建议

关键要点

仅通过协议修正即可恢复 6–9 pp 的准确率，证明许多“失败”是评估伪像。
更干净的标签（ReGT）带来最大提升，说明噪声的 ImageNet 标签对 MLLM 的影响大于对全监督 CNN 的影响。
设计选择很重要：更大的批量大小和稳定的图像顺序提升一致性；文本编码器的选择可导致结果相差最高 3 pp。
MLLM 可作为实用的标注者：在一半的困难案例中，模型的建议足够好，人工直接采纳，无需进一步工作。

实际意义

更可靠的基准测试 – 构建视觉语言产品的团队可以采用作者纠正后的协议（例如，保留列表外的预测，使用更强的干扰项），以真实了解模型能力。
大规模数据集策划 – 需要标注数百万图像的公司（如电商、社交媒体）可以将 MLLM（多模态大语言模型）集成到标注流水线中，使对模糊项目的人力投入大约减半。
模型选择指南 – 在为分类任务选择 MLLM 时，优先考虑对监督视觉预训练依赖较少的模型（它们从干净标签中获益最大）。
微调策略 – 对批量大小和图像顺序的敏感性表明，即使是轻量级微调或提示工程也能在无需完整再训练的情况下带来显著提升。
开放世界应用 – 通过改进自由形式模型输出到目标分类体系的映射，开发者可以构建更灵活的图像搜索或内容审核系统，从而优雅地处理新出现的类别。

局限性与未来工作

Scope of ReGT – 重新标注仅覆盖了 1,000 个 ImageNet 类中的 625 类；将其扩展到全部类别（或其他领域）将进一步验证研究结果。
Model diversity – 实验仅聚焦于少数公开发布的 MLLM；更新或更大的多模态模型可能表现出不同的敏感性。
Human study size – 标注实验涉及的标注者和图像样本数量有限；需要更大规模的用户研究来确认在实际生产环境中的 50 % 接受率。
Real‑time constraints – 未探讨批量大小和顺序对延迟的影响；未来工作应在部署时平衡准确性提升与推理速度。

通过解决这些问题，社区可以巩固 MLLM 作为可靠的图像分类器和注释助手在真实世界流水线中的地位。

作者

Nikita Kisel
Illia Volkov
Klara Janouskova
Jiri Matas

论文信息

arXiv ID: 2603.06578v1
分类: cs.CV
出版日期: 2026年3月6日
PDF: Download PDF

[Paper] 多模态大语言模型作为图像分类器

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Omni-Diffusion：统一的多模态理解与生成，采用 Masked Discrete Diffusion

[Paper] SCOPE：场景上下文化增量少样本3D分割

[Paper] SUREON：用于外科推理的基准与视觉语言模型

[Paper] Penguin-VL：探索基于LLM的视觉编码器在VLM中的效率极限