[Paper] FlashVLM：文本引导的视觉令牌选择用于大型多模态模型

发布: 1个月前 (2025年12月24日 GMT+8 02:05)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20561v1

概述

FlashVLM 解决了大型视觉‑语言模型（VLM）中的一个核心瓶颈：每个图像或视频帧必须处理的大量视觉标记。通过仅选择与给定文本查询真正相关的标记，FlashVLM 将二次注意力成本大幅削减，同时在许多基准上实际上提升了性能。论文显示，您可以在不牺牲准确性的情况下剪枝约 78 % 的视觉标记，甚至在某些情况下超越未剪枝的基线。

关键贡献

文本引导的 token 选择： 引入图像补丁与查询嵌入之间的显式跨模态相似度分数，而不是依赖嘈杂的自注意力图。
混合相关性加权： 结合外在（文本查询相关性）和内在（视觉显著性）线索，使用对数域加权和温度控制的锐化，实现稳健排序。
保持多样性的划分： 确保保留最小集合的背景 token，以保持全局场景上下文，防止对“无聊”区域的过度裁剪。
无损或更佳压缩： 证明在相同 token 预算下，FlashVLM 能够匹配或超越原模型的准确率（例如，以 94.4% 的压缩率实现原性能的 92.8%）。
广泛评估： 在 14 个图像和视频数据集上，使用多种 VLM 主干（包括 LLaVA‑1.5）进行验证，显示出一致的效率‑准确性权衡和强大的鲁棒性。

方法论

项目视觉标记: 每个图像块（或视频帧标记）线性投影到语言模型使用的相同嵌入空间。
计算跨模态相似度: 将投影后的标记与归一化的文本查询嵌入点乘，得到直接衡量给定提示下该块“可谈论性”的相关分数。
与视觉显著性融合: 将内在显著性图（由轻量级 CNN 或 VLM 的早期层得到）与相关分数结合。融合在对数域进行，并通过温度参数进行锐化，突出高相关标记并抑制噪声。
排序与剪枝: 按融合分数对标记进行排序。用户定义的预算（例如保留 20 % 的标记）决定截断点。
多样性划分: 为避免丢失所有背景信息，FlashVLM 保留一小部分低分标记，这些标记在空间上分散，以保持粗略的全局上下文。
将剪枝后的集合输入 VLM: 将缩减后的标记集合传入标准 Transformer 层，显著降低二次注意力成本。

整个流程轻量（无需额外的深度注意力过程），且可以插入任何已经公开标记嵌入的现有 VLM 中。

结果与发现

指标	未剪枝基线	FlashVLM（剪枝 77.8 %）	FlashVLM（剪枝 94.4 %）
准确率（在 14 项基准上的平均）	100 %（参考）	100.3 %（略有提升）	92.8 %
FLOPs 减少	–	≈ 4×	≈ 15×
每张图像的 token 数量	~1024	~224	~60

最先进的效率： 在所有测试的 VLM（LLaVA‑1.5、MiniGPT‑4 等）中，FlashVLM 始终优于之前的 token‑削减方法（例如基于注意力的剪枝、均匀下采样）。
鲁棒性： 即使在极端压缩（≥ 94 % token 移除）下，性能下降也很平缓，模型仍保持对分布外提示的强零样本能力。
泛化能力： 相同的 relevance‑fusion 超参数可在图像和视频任务之间直接迁移，表明该方法并未与特定数据集紧密耦合。

实际意义

成本效益高的推理: 在边缘设备、移动 GPU 或无服务器环境上部署 VLM 变得可行，因为二次注意力成本大幅降低。
更快的交互式 AI 助手: 实时多模态聊天机器人（例如基于 LLaVA 的代理）可以更快响应，从而在 AR/VR 或基于网页的应用中提供更流畅的用户体验。
可扩展的视频分析: 传统上处理视频的每一帧成本高昂；FlashVLM 的 token 选择可以逐帧应用，将计算量降低一个数量级，同时仍能回答针对特定帧的问题。
节能: 更低的 FLOPs 直接转化为降低的功耗——这对大规模推理集群和注重可持续性的部署具有吸引力。
即插即用: 由于该方法基于现有的 token 嵌入工作，开发者可以通过最少的代码修改将 FlashVLM 集成到其流水线中（例如在 transformer 编码器之前添加一个预处理钩子）。

限制与未来工作

依赖良好的文本嵌入： 如果语言模型的查询表示较弱（例如，提示模糊），相关性得分可能会误导剪枝决策。
静态预算选择： 当前实现对每幅图像使用固定的 token 预算；基于场景复杂度的自适应预算可能会带来更好的权衡。
仅限于 transformer 风格的 VLM： 对于不公开 token 级别嵌入的模型（例如某些基于扩散的多模态系统），需要额外的工程工作。
未来方向： 作者建议探索学习的温度调度、加入多模态反馈回路（例如首次通过后的重新排序），以及将框架扩展到用于自动驾驶场景的 3D 点云或 LiDAR 数据。

作者

Kaitong Cai
Jusheng Zhang
Jing Yang
Yijia Fan
Pengtao Xie
Jian Wang
Keze Wang

论文信息

arXiv ID: 2512.20561v1
分类: cs.CV
发表时间: 2025年12月23日
PDF: 下载 PDF

[Paper] FlashVLM：文本引导的视觉令牌选择用于大型多模态模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 少看，准看：双向感知塑形用于多模态推理

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

[Paper] Yume-1.5：文本控制的交互式世界生成模型