[Paper] 超越冗余的视角：任务复杂性在 VLLMs 中 Vision Token 专化中的作用

发布: 3天前 (2026年2月7日 GMT+8 02:13)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06914v1

Overview

视觉大语言模型（VLLMs）在语言理解方面取得了显著进展，但在需要细粒度视觉细节或空间推理的任务上仍然表现不佳。本文深入探讨了why这种差距产生的原因，指出 VLLMs 对视觉信息的压缩方式——作者称之为visual token specialization——在很大程度上取决于其所训练任务的复杂性。

关键贡献

Synthetic visual benchmark: 一个轻量级数据集，旨在隔离并探测特定的视觉特征（颜色、纹理、形状、空间关系）。
Redundancy metrics: 用于量化视觉信息在 token 之间重复程度与被舍弃程度的定量工具。
Task‑complexity analysis: 在一系列视觉任务（从简单的对象分类到复杂的场景图推理）上进行系统性的微调实验。
Empirical link between complexity and compression: 证明更高复杂度的训练数据会迫使 VLLM 保留更细粒度的视觉 token，从而降低冗余。
Guidelines for next‑gen VLLM training: 关于数据组成的实用建议，以促进更丰富的视觉 token 表征。

方法论

合成基准的设计
- 图像通过程序生成，以包含受控的视觉线索（例如，蓝色背景上的红色方块、重叠形状、精确的空间偏移）。
- 每个线索对应一个明确的文本提示，便于评估模型是否捕捉到预期的细节。
冗余度测量
- 作者计算视觉嵌入与原始像素块之间的 逐标记互信息。
- 冗余得分 汇总了有多少标记携带重叠信息，而不是唯一、任务相关的细节。
跨任务族的微调
- 使用了四个任务组：
  (a) 粗粒度对象分类，
  (b) 属性检测（颜色/纹理），
  (c) 关系推理（例如，“绿色圆形在蓝色方块左侧”），以及
  (d) 组合式场景图生成。
- 对同一基础 VLLM（CLIP 风格的视觉编码器 + LLaMA 风格的语言解码器）在每个组上进行微调，保持超参数不变，以隔离任务复杂度的影响。
分析流程
- 训练完成后，使用冗余度指标对模型的视觉标记嵌入进行探测，并在合成基准上评估，以观察哪些视觉线索在压缩过程中得以保留。

结果与发现

任务组	冗余度得分（越低越不冗余）	合成基准准确率
粗略分类	0.78	92 %
属性检测	0.62	84 %
关系推理	0.48	71 %
场景图生成	0.35	58 %

复杂任务推动更丰富的标记化：随着任务复杂度提升，模型学会为细微的视觉线索分配更多不同的标记，从而降低冗余。
性能权衡：虽然更丰富的标记化提升了细粒度推理能力，但也会略微削弱对纯粗略任务的性能（模型“过拟合”了不需要的细节）。
可视化：t‑SNE 标记嵌入的图显示，简单任务的聚类更紧密（许多标记映射到相同的视觉概念），而复杂任务则呈现更分散、特征特定的聚类。

Practical Implications

Data curation for VLLM training
- 包含 平衡的高复杂度视觉示例（例如，多目标场景、遮挡、关系查询），以迫使模型保留细粒度信息。
- 仅“标签式”图像数据集（例如 ImageNet）可能导致过度压缩，限制下游推理能力。
Model architecture tweaks
- 考虑 自适应 token 预算：在预处理阶段对被标记为“高复杂度”的区域分配更多视觉 token（例如，使用轻量级显著性检测器）。
- 引入 正则化损失，在微调时惩罚高冗余得分。
Debugging VLLM failures
- 冗余度指标可作为诊断工具：如果模型在空间推理上持续失效，关系基准上的高冗余得分表明视觉细节被压缩。
Product development
- 对于 视觉问答、机器人感知或 AR 助手 等应用，训练流水线应有意让模型接触复杂场景组合，以确保可靠的细粒度推理。

限制与未来工作

合成基准的真实性：虽然可控，但生成的图像缺乏真实世界数据的噪声和变异性，因此向自然图像的迁移能力需要进一步验证。
单一架构聚焦：实验仅限于 CLIP 风格的编码器 + LLaMA 解码器；其他 VLLM 系列（例如 Flamingo、Gemini）可能表现出不同的冗余动态。
冗余度量的可扩展性：对非常大的模型计算逐 token 互信息在计算上非常昂贵；需要近似方法以适用于生产规模的训练。

作者提出的未来研究方向包括将基准扩展到视频、探索推理期间的动态 token 分配，以及将冗余感知目标直接整合到预训练阶段。

作者

Darryl Hannan
John Cooper
Dylan White
Yijing Watkins

论文信息

arXiv ID: 2602.06914v1
Categories: cs.CV
Published: 2026年2月6日
PDF: 下载 PDF

[Paper] 超越冗余的视角：任务复杂性在 VLLMs 中 Vision Token 专化中的作用

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

[Paper] 可靠的误标检测用于视频胶囊内镜数据

【论文】PANC：先验感知 Normalized Cut 用于目标分割

[论文] Prompt Reinjection：缓解多模态 Diffusion Transformers 中的 Prompt Forgetting