[Paper] 超越冗余的视角:任务复杂性在 VLLMs 中 Vision Token 专化中的作用

发布: (2026年2月7日 GMT+8 02:13)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06914v1

Overview

视觉大语言模型(VLLMs)在语言理解方面取得了显著进展,但在需要细粒度视觉细节或空间推理的任务上仍然表现不佳。本文深入探讨了why这种差距产生的原因,指出 VLLMs 对视觉信息的压缩方式——作者称之为visual token specialization——在很大程度上取决于其所训练任务的复杂性。

关键贡献

  • Synthetic visual benchmark: 一个轻量级数据集,旨在隔离并探测特定的视觉特征(颜色、纹理、形状、空间关系)。
  • Redundancy metrics: 用于量化视觉信息在 token 之间重复程度与被舍弃程度的定量工具。
  • Task‑complexity analysis: 在一系列视觉任务(从简单的对象分类到复杂的场景图推理)上进行系统性的微调实验。
  • Empirical link between complexity and compression: 证明更高复杂度的训练数据会迫使 VLLM 保留更细粒度的视觉 token,从而降低冗余。
  • Guidelines for next‑gen VLLM training: 关于数据组成的实用建议,以促进更丰富的视觉 token 表征。

方法论

  1. 合成基准的设计

    • 图像通过程序生成,以包含受控的视觉线索(例如,蓝色背景上的红色方块、重叠形状、精确的空间偏移)。
    • 每个线索对应一个明确的文本提示,便于评估模型是否捕捉到预期的细节。
  2. 冗余度测量

    • 作者计算视觉嵌入与原始像素块之间的 逐标记互信息
    • 冗余得分 汇总了有多少标记携带重叠信息,而不是唯一、任务相关的细节。
  3. 跨任务族的微调

    • 使用了四个任务组:
      (a) 粗粒度对象分类,
      (b) 属性检测(颜色/纹理),
      (c) 关系推理(例如,“绿色圆形在蓝色方块左侧”),以及
      (d) 组合式场景图生成。
    • 对同一基础 VLLM(CLIP 风格的视觉编码器 + LLaMA 风格的语言解码器)在每个组上进行微调,保持超参数不变,以隔离任务复杂度的影响。
  4. 分析流程

    • 训练完成后,使用冗余度指标对模型的视觉标记嵌入进行探测,并在合成基准上评估,以观察哪些视觉线索在压缩过程中得以保留。

结果与发现

任务组冗余度得分(越低越不冗余)合成基准准确率
粗略分类0.7892 %
属性检测0.6284 %
关系推理0.4871 %
场景图生成0.3558 %
  • 复杂任务推动更丰富的标记化:随着任务复杂度提升,模型学会为细微的视觉线索分配更多不同的标记,从而降低冗余。
  • 性能权衡:虽然更丰富的标记化提升了细粒度推理能力,但也会略微削弱对纯粗略任务的性能(模型“过拟合”了不需要的细节)。
  • 可视化:t‑SNE 标记嵌入的图显示,简单任务的聚类更紧密(许多标记映射到相同的视觉概念),而复杂任务则呈现更分散、特征特定的聚类。

Practical Implications

  1. Data curation for VLLM training

    • 包含 平衡的高复杂度视觉示例(例如,多目标场景、遮挡、关系查询),以迫使模型保留细粒度信息。
    • 仅“标签式”图像数据集(例如 ImageNet)可能导致过度压缩,限制下游推理能力。
  2. Model architecture tweaks

    • 考虑 自适应 token 预算:在预处理阶段对被标记为“高复杂度”的区域分配更多视觉 token(例如,使用轻量级显著性检测器)。
    • 引入 正则化损失,在微调时惩罚高冗余得分。
  3. Debugging VLLM failures

    • 冗余度指标可作为诊断工具:如果模型在空间推理上持续失效,关系基准上的高冗余得分表明视觉细节被压缩。
  4. Product development

    • 对于 视觉问答、机器人感知或 AR 助手 等应用,训练流水线应有意让模型接触复杂场景组合,以确保可靠的细粒度推理。

限制与未来工作

  • 合成基准的真实性:虽然可控,但生成的图像缺乏真实世界数据的噪声和变异性,因此向自然图像的迁移能力需要进一步验证。
  • 单一架构聚焦:实验仅限于 CLIP 风格的编码器 + LLaMA 解码器;其他 VLLM 系列(例如 Flamingo、Gemini)可能表现出不同的冗余动态。
  • 冗余度量的可扩展性:对非常大的模型计算逐 token 互信息在计算上非常昂贵;需要近似方法以适用于生产规模的训练。

作者提出的未来研究方向包括将基准扩展到视频、探索推理期间的动态 token 分配,以及将冗余感知目标直接整合到预训练阶段。

作者

  • Darryl Hannan
  • John Cooper
  • Dylan White
  • Yijing Watkins

论文信息

  • arXiv ID: 2602.06914v1
  • Categories: cs.CV
  • Published: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »