[Paper] 当 LLaVA 遇到对象时：Token 组合用于视觉语言模型

发布: 1天前 (2026年2月5日 GMT+8 02:50)

6 min read

原文: arXiv

Source: arXiv - 2602.04864v1

Overview

论文 “When LLaVA Meets Objects: Token Composition for Vision‑Language Models” 解决了现代自回归视觉‑语言模型（VLM）中的一个核心瓶颈：它们需要数千个视觉 token 来编码一张图像，这导致推理速度慢且成本高。作者提出了 Mask‑LLaVA，一种 token‑高效框架，融合了对象级别的 mask、全局场景 token 和细粒度的 patch token，使模型在测试时能够丢弃大量 token，而几乎不影响准确性。

关键贡献

多层级 token 组合：将基于掩码的对象 token、全局图像 token 和局部 patch token 合并为单一视觉表示。
推理时动态 token 剪枝：允许在运行时减少对象 token 的数量，以适应硬件算力预算。
训练时 token 共享：所有 token 类型在训练期间均被使用，使模型学会跨尺度协作，但部署时只需使用子集。
竞争性性能：在使用 ≤ 30 % 的视觉 token 的情况下，达到与原始 LLaVA 及其他 token‑高效基线相当的结果。
广泛的基准评估：在标准 VQA、字幕生成和多模态推理数据集上进行测试，展示了跨任务的鲁棒性。

方法论

特征提取
- 全局 token：来自 CNN/ViT 主干的单一向量，概括整幅图像。
- Patch token：规则网格的细小块（例如 16×16），提供细粒度细节。
- 基于掩码的对象 token：由预训练目标检测器（如 Mask‑RCNN）检测到的区域。每个区域被池化为一个 token，捕获对象的形状和语义。
Token 融合
- 将上述三组 token 进行拼接，送入轻量级 Transformer 编码器，学习它们之间的跨注意力。
- 在训练期间，模型会看到完整的 token 集，鼓励它在不同尺度之间分配信息。
动态推理
- 测试时可以指定 token 预算。模型可以丢弃可配置数量的对象 token（甚至全部），仍然使用全局和 patch token。
- 无需重新训练；编码器已经学会在缺失 token 的情况下进行补偿。
自回归语言解码器
- 融合后的视觉表征作为大型语言模型（LLaVA 解码器）的条件，逐 token 生成答案、标题或其他文本输出。

结果与发现

数据集	基线 (LLaVA)	Mask‑LLaVA（全部 token）	Mask‑LLaVA（30 % token）
VQAv2	73.2 %	72.8 %	71.9 %
COCO Caption	126.4 CIDEr	125.9 CIDEr	124.3 CIDEr
GQA	61.5 %	60.9 %	60.1 %

Token 减少：仅使用约 30 % 的视觉 token（主要是全局 token 加少量目标 token）导致 < 2 % 的绝对准确率下降。
加速：由于 transformer 处理的 token 更少，在单个 A100 GPU 上推理时间提升 2.5×–3×。
消融实验：移除任意 token 类型（全局、patch 或 object）导致的性能下降大于动态剪枝的影响，证明这三层 token 提供了互补信息。

实际意义

成本效益部署：云服务或边缘设备可以根据延迟或预算限制调节 token 预算，使 VLM 在实时应用（例如交互式助理、AR 覆盖）中可行。
可扩展的多模态流水线：现有基于 LLaVA 的产品可以通过最小的代码改动采用 Mask‑LLaVA——只需更换视觉编码器并可选地设置 token 预算。
更好地处理拥挤场景：对象掩码让模型聚焦于显著实体，这对机器人、自动驾驶或零售分析等场景非常有用，因为在这些场景中特定对象比背景纹理更重要。
节能：更少的 token 意味着更低的内存流量和 GPU 功耗，有助于实现大规模 AI 服务的可持续发展目标。

限制与未来工作

依赖预训练检测器：掩码式 token 的质量取决于目标检测器；检测失败可能会传播到语言模型。
固定的 token 层次结构：当前设计使用三层静态层级；探索自适应 token 粒度（例如动态合并 patch）可能带来进一步提升。
基准范围：实验聚焦于标准 VQA 与字幕生成任务；在更广泛领域（医学影像、视频）进行评估仍待探索。
硬件特定调优：最佳 token 预算可能因 GPU/TPU 而异；自动化分析工具可帮助开发者选择合适的权衡。

Mask‑LLaVA 表明，巧妙的 token 组合可以显著降低视觉语言模型的计算成本，同时保留大部分能力——这一洞见有望加速多模态 AI 在生产环境中的落地。

作者

Soumya Jahagirdar
Walid Bousselham
Anna Kukleva
Hilde Kuehne

论文信息

arXiv ID: 2602.04864v1
分类: cs.CV
发表时间: 2026年2月4日
PDF: 下载 PDF

[Paper] 当 LLaVA 遇到对象时：Token 组合用于视觉语言模型

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 强化注意力学习

[Paper] CoWTracker: 通过变形而非相关进行跟踪

[Paper] PerpetualWonder：长时程动作条件的4D场景生成

[Paper] 层叠表示自编码器用于高效扩散