[Paper] 当 LLaVA 遇到对象时:Token 组合用于视觉语言模型

发布: (2026年2月5日 GMT+8 02:50)
6 min read
原文: arXiv

Source: arXiv - 2602.04864v1

Overview

论文 “When LLaVA Meets Objects: Token Composition for Vision‑Language Models” 解决了现代自回归视觉‑语言模型(VLM)中的一个核心瓶颈:它们需要数千个视觉 token 来编码一张图像,这导致推理速度慢且成本高。作者提出了 Mask‑LLaVA,一种 token‑高效框架,融合了对象级别的 mask、全局场景 token 和细粒度的 patch token,使模型在测试时能够丢弃大量 token,而几乎不影响准确性。

关键贡献

  • 多层级 token 组合:将基于掩码的对象 token、全局图像 token 和局部 patch token 合并为单一视觉表示。
  • 推理时动态 token 剪枝:允许在运行时减少对象 token 的数量,以适应硬件算力预算。
  • 训练时 token 共享:所有 token 类型在训练期间均被使用,使模型学会跨尺度协作,但部署时只需使用子集。
  • 竞争性性能:在使用 ≤ 30 % 的视觉 token 的情况下,达到与原始 LLaVA 及其他 token‑高效基线相当的结果。
  • 广泛的基准评估:在标准 VQA、字幕生成和多模态推理数据集上进行测试,展示了跨任务的鲁棒性。

方法论

  1. 特征提取

    • 全局 token:来自 CNN/ViT 主干的单一向量,概括整幅图像。
    • Patch token:规则网格的细小块(例如 16×16),提供细粒度细节。
    • 基于掩码的对象 token:由预训练目标检测器(如 Mask‑RCNN)检测到的区域。每个区域被池化为一个 token,捕获对象的形状和语义。
  2. Token 融合

    • 将上述三组 token 进行拼接,送入轻量级 Transformer 编码器,学习它们之间的跨注意力。
    • 在训练期间,模型会看到完整的 token 集,鼓励它在不同尺度之间分配信息。
  3. 动态推理

    • 测试时可以指定 token 预算。模型可以丢弃可配置数量的对象 token(甚至全部),仍然使用全局和 patch token。
    • 无需重新训练;编码器已经学会在缺失 token 的情况下进行补偿。
  4. 自回归语言解码器

    • 融合后的视觉表征作为大型语言模型(LLaVA 解码器)的条件,逐 token 生成答案、标题或其他文本输出。

结果与发现

数据集基线 (LLaVA)Mask‑LLaVA(全部 token)Mask‑LLaVA(30 % token)
VQAv273.2 %72.8 %71.9 %
COCO Caption126.4 CIDEr125.9 CIDEr124.3 CIDEr
GQA61.5 %60.9 %60.1 %
  • Token 减少:仅使用约 30 % 的视觉 token(主要是全局 token 加少量目标 token)导致 < 2 % 的绝对准确率下降。
  • 加速:由于 transformer 处理的 token 更少,在单个 A100 GPU 上推理时间提升 2.5×–3×
  • 消融实验:移除任意 token 类型(全局、patch 或 object)导致的性能下降大于动态剪枝的影响,证明这三层 token 提供了互补信息。

实际意义

  • 成本效益部署:云服务或边缘设备可以根据延迟或预算限制调节 token 预算,使 VLM 在实时应用(例如交互式助理、AR 覆盖)中可行。
  • 可扩展的多模态流水线:现有基于 LLaVA 的产品可以通过最小的代码改动采用 Mask‑LLaVA——只需更换视觉编码器并可选地设置 token 预算。
  • 更好地处理拥挤场景:对象掩码让模型聚焦于显著实体,这对机器人、自动驾驶或零售分析等场景非常有用,因为在这些场景中特定对象比背景纹理更重要。
  • 节能:更少的 token 意味着更低的内存流量和 GPU 功耗,有助于实现大规模 AI 服务的可持续发展目标。

限制与未来工作

  • 依赖预训练检测器:掩码式 token 的质量取决于目标检测器;检测失败可能会传播到语言模型。
  • 固定的 token 层次结构:当前设计使用三层静态层级;探索自适应 token 粒度(例如动态合并 patch)可能带来进一步提升。
  • 基准范围:实验聚焦于标准 VQA 与字幕生成任务;在更广泛领域(医学影像、视频)进行评估仍待探索。
  • 硬件特定调优:最佳 token 预算可能因 GPU/TPU 而异;自动化分析工具可帮助开发者选择合适的权衡。

Mask‑LLaVA 表明,巧妙的 token 组合可以显著降低视觉语言模型的计算成本,同时保留大部分能力——这一洞见有望加速多模态 AI 在生产环境中的落地。

作者

  • Soumya Jahagirdar
  • Walid Bousselham
  • Anna Kukleva
  • Hilde Kuehne

论文信息

  • arXiv ID: 2602.04864v1
  • 分类: cs.CV
  • 发表时间: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 强化注意力学习

通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…