[Paper] 当 LLaVA 遇到对象时:Token 组合用于视觉语言模型
发布: (2026年2月5日 GMT+8 02:50)
6 min read
原文: arXiv
Source: arXiv - 2602.04864v1
Overview
论文 “When LLaVA Meets Objects: Token Composition for Vision‑Language Models” 解决了现代自回归视觉‑语言模型(VLM)中的一个核心瓶颈:它们需要数千个视觉 token 来编码一张图像,这导致推理速度慢且成本高。作者提出了 Mask‑LLaVA,一种 token‑高效框架,融合了对象级别的 mask、全局场景 token 和细粒度的 patch token,使模型在测试时能够丢弃大量 token,而几乎不影响准确性。
关键贡献
- 多层级 token 组合:将基于掩码的对象 token、全局图像 token 和局部 patch token 合并为单一视觉表示。
- 推理时动态 token 剪枝:允许在运行时减少对象 token 的数量,以适应硬件算力预算。
- 训练时 token 共享:所有 token 类型在训练期间均被使用,使模型学会跨尺度协作,但部署时只需使用子集。
- 竞争性性能:在使用 ≤ 30 % 的视觉 token 的情况下,达到与原始 LLaVA 及其他 token‑高效基线相当的结果。
- 广泛的基准评估:在标准 VQA、字幕生成和多模态推理数据集上进行测试,展示了跨任务的鲁棒性。
方法论
-
特征提取
- 全局 token:来自 CNN/ViT 主干的单一向量,概括整幅图像。
- Patch token:规则网格的细小块(例如 16×16),提供细粒度细节。
- 基于掩码的对象 token:由预训练目标检测器(如 Mask‑RCNN)检测到的区域。每个区域被池化为一个 token,捕获对象的形状和语义。
-
Token 融合
- 将上述三组 token 进行拼接,送入轻量级 Transformer 编码器,学习它们之间的跨注意力。
- 在训练期间,模型会看到完整的 token 集,鼓励它在不同尺度之间分配信息。
-
动态推理
- 测试时可以指定 token 预算。模型可以丢弃可配置数量的对象 token(甚至全部),仍然使用全局和 patch token。
- 无需重新训练;编码器已经学会在缺失 token 的情况下进行补偿。
-
自回归语言解码器
- 融合后的视觉表征作为大型语言模型(LLaVA 解码器)的条件,逐 token 生成答案、标题或其他文本输出。
结果与发现
| 数据集 | 基线 (LLaVA) | Mask‑LLaVA(全部 token) | Mask‑LLaVA(30 % token) |
|---|---|---|---|
| VQAv2 | 73.2 % | 72.8 % | 71.9 % |
| COCO Caption | 126.4 CIDEr | 125.9 CIDEr | 124.3 CIDEr |
| GQA | 61.5 % | 60.9 % | 60.1 % |
- Token 减少:仅使用约 30 % 的视觉 token(主要是全局 token 加少量目标 token)导致 < 2 % 的绝对准确率下降。
- 加速:由于 transformer 处理的 token 更少,在单个 A100 GPU 上推理时间提升 2.5×–3×。
- 消融实验:移除任意 token 类型(全局、patch 或 object)导致的性能下降大于动态剪枝的影响,证明这三层 token 提供了互补信息。
实际意义
- 成本效益部署:云服务或边缘设备可以根据延迟或预算限制调节 token 预算,使 VLM 在实时应用(例如交互式助理、AR 覆盖)中可行。
- 可扩展的多模态流水线:现有基于 LLaVA 的产品可以通过最小的代码改动采用 Mask‑LLaVA——只需更换视觉编码器并可选地设置 token 预算。
- 更好地处理拥挤场景:对象掩码让模型聚焦于显著实体,这对机器人、自动驾驶或零售分析等场景非常有用,因为在这些场景中特定对象比背景纹理更重要。
- 节能:更少的 token 意味着更低的内存流量和 GPU 功耗,有助于实现大规模 AI 服务的可持续发展目标。
限制与未来工作
- 依赖预训练检测器:掩码式 token 的质量取决于目标检测器;检测失败可能会传播到语言模型。
- 固定的 token 层次结构:当前设计使用三层静态层级;探索自适应 token 粒度(例如动态合并 patch)可能带来进一步提升。
- 基准范围:实验聚焦于标准 VQA 与字幕生成任务;在更广泛领域(医学影像、视频)进行评估仍待探索。
- 硬件特定调优:最佳 token 预算可能因 GPU/TPU 而异;自动化分析工具可帮助开发者选择合适的权衡。
Mask‑LLaVA 表明,巧妙的 token 组合可以显著降低视觉语言模型的计算成本,同时保留大部分能力——这一洞见有望加速多模态 AI 在生产环境中的落地。
作者
- Soumya Jahagirdar
- Walid Bousselham
- Anna Kukleva
- Hilde Kuehne
论文信息
- arXiv ID: 2602.04864v1
- 分类: cs.CV
- 发表时间: 2026年2月4日
- PDF: 下载 PDF