[Paper] 赋能 MLLMs 中可靠的视觉中心指令跟随

发布: 1个月前 (2026年1月7日 GMT+8 01:23)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.03198v1

概述

论文 “Empowering Reliable Visual‑Centric Instruction Following in MLLMs” 关注了多模态大语言模型（MLLLMs）评估中的一个盲点：大多数基准测试只检验模型对文本指令的遵循程度，却忽视了图像本身所施加的丰富约束。作者通过引入 VC‑IFEval——一个将视觉依赖约束直接嵌入指令设计的新基准和数据集——提供了一个更贴近实际的衡量标准，用于评估 MLLMs 对视觉与文本混合指令的忠实度。在该数据上进行微调能够显著提升模型的准确性和遵循度，进而揭示当前模型的优势所在以及仍然存在的不足。

关键贡献

VC‑IFEval benchmark：一个系统化的多模态评估套件，将文本提示与明确的视觉约束相结合（例如，“统计图片中红色物体的数量”）。
Dataset construction pipeline：自动生成指令‑图像对并提供真实答案，覆盖多种视觉任务（对象计数、空间推理、属性提取等）。
Fine‑tuning recipe：一种轻量级的微调协议，在不需要大量计算资源的情况下提升现有 MLLM 的指令遵循性能。
Comprehensive analysis：对主流 MLLM（如 LLaVA、MiniGPT‑4、InstructBLIP）进行广泛实验，揭示其优势、失效模式以及视觉约束的影响。
Open‑source release：代码、数据和评估脚本已公开发布，鼓励可复现性和社区驱动的扩展。

方法论

任务分类 – 作者首先定义了一套以视觉为中心的指令类别（计数、属性查询、空间关系、视觉推理等）。
数据生成 – 通过合成图像生成器（例如 Stable Diffusion）和精选的真实世界图像相结合，自动为每幅图像配对多条明确引用视觉元素的指令。真实答案来源于生成元数据或人工标注。
基准设计 – 对于每条指令，基准评估两个维度：
- 正确性：模型的答案是否与真实答案匹配？
- 遵循度：响应是否遵守视觉约束（例如，不出现未见的对象幻觉）？
  评分脚本会计算一个平衡两方面的综合指标。
微调 – 在 VC‑IFEval 数据的子集上使用标准的指令遵循损失（对标记化答案的交叉熵）对现有 MLLMs 进行微调。该过程只需在单个 GPU 上运行少量 epoch，因而对大多数实验室来说是可行的。
评估 – 将微调后的模型及其基线在完整基准上运行；结果按任务类型细分，以 pinpoint 改进所在。

结果与发现

模型（基线）	Overall VC‑IFEval Score ↑	Counting Accuracy ↑	Spatial Reasoning ↑
LLaVA‑13B	62.4%	58.1%	60.3%
LLaVA‑13B (FT)	78.9%	73.5%	76.2%
MiniGPT‑4‑7B	55.7%	51.0%	53.4%
MiniGPT‑4‑7B (FT)	71.2%	66.8%	69.5%

在 VC‑IFEval 上进行微调能够使得各模型的分数一致提升 约 15–20 个百分点。
最大的提升出现在计数与 属性提取 任务，这些任务高度依赖精确的视觉定位。
错误分析表明，即使经过微调，当视觉线索模糊时模型仍会出现幻觉对象，说明仍有提升视觉定位机制的空间。
跨模态一致性（模型的答案同时符合文本和图像）从约 68 % 提升至微调后超过 85 %。

实际影响

更可靠的助手：开发需要基于视觉输入（例如“在这张照片中显示红色汽车的数量”）进行操作的 AI 助手的开发者，现在可以使用具体的度量指标进行基准测试和改进，而不必依赖临时的测试方法。
安全与合规：在医学影像或自主检测等领域，确保模型的输出严格遵循视觉约束可以降低幻觉产生的风险，从而避免可能导致高额错误的后果。
快速适配：微调方案展示了少量特定领域的视觉指令数据即可显著提升性能，使产品团队能够在不需要巨额训练预算的情况下，将通用 MLLM 定制化到细分视觉任务。
标准化评估：VC‑IFEval 有望成为任何新 MLLM 的事实标准测试套件，类似于 GLUE 或 SuperGLUE 在 NLP 评估中的作用。这帮助投资者和产品经理在同一水平线上比较竞争模型。

限制与未来工作

数据集偏差：虽然作者混合了合成和真实图像，但视觉分布仍倾向于相对干净、结构良好的场景；在杂乱的真实世界照片上的表现可能有所不同。
指令多样性：目前的分类法覆盖了一套核心任务，但尚未包括更复杂的多步骤视觉推理（例如“首先定位蓝色球体，然后统计围绕它的绿色立方体的数量”）。
模型规模扩展：实验聚焦于 7–13 B 参数模型；尚未明确更大规模的多模态大语言模型（例如 70 B）在相同微调方案下的表现。
交互式评估：VC‑IFEval 是静态的；未来工作可以将其扩展为交互式对话，其中视觉约束在多轮中演变。

总体而言，本文提供了一个实用工具包，帮助需要其多模态模型可靠遵循视觉指令的开发者，并为构建更可信、具备视觉感知的 AI 系统指明了明确的方向。

作者

Weilei He
Feng Ju
Zhiyuan Fan
Rui Min
Minhao Cheng
Yi R. Fung

论文信息

arXiv ID: 2601.03198v1
分类: cs.LG
发布时间: 2026年1月6日
PDF: 下载 PDF

[Paper] 赋能 MLLMs 中可靠的视觉中心指令跟随

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性