[Paper] FlashVLM:文本引导的视觉令牌选择用于大型多模态模型

发布: (2025年12月24日 GMT+8 02:05)
7 min read
原文: arXiv

Source: arXiv - 2512.20561v1

概述

FlashVLM 解决了大型视觉‑语言模型(VLM)中的一个核心瓶颈:每个图像或视频帧必须处理的大量视觉标记。通过仅选择与给定文本查询真正相关的标记,FlashVLM 将二次注意力成本大幅削减,同时在许多基准上实际上提升了性能。论文显示,您可以在不牺牲准确性的情况下剪枝约 78 % 的视觉标记,甚至在某些情况下超越未剪枝的基线。

关键贡献

  • 文本引导的 token 选择: 引入图像补丁与查询嵌入之间的显式跨模态相似度分数,而不是依赖嘈杂的自注意力图。
  • 混合相关性加权: 结合外在(文本查询相关性)和内在(视觉显著性)线索,使用对数域加权和温度控制的锐化,实现稳健排序。
  • 保持多样性的划分: 确保保留最小集合的背景 token,以保持全局场景上下文,防止对“无聊”区域的过度裁剪。
  • 无损或更佳压缩: 证明在相同 token 预算下,FlashVLM 能够匹配或超越原模型的准确率(例如,以 94.4% 的压缩率实现原性能的 92.8%)。
  • 广泛评估: 在 14 个图像和视频数据集上,使用多种 VLM 主干(包括 LLaVA‑1.5)进行验证,显示出一致的效率‑准确性权衡和强大的鲁棒性。

方法论

  1. 项目视觉标记: 每个图像块(或视频帧标记)线性投影到语言模型使用的相同嵌入空间。
  2. 计算跨模态相似度: 将投影后的标记与归一化的文本查询嵌入点乘,得到直接衡量给定提示下该块“可谈论性”的相关分数。
  3. 与视觉显著性融合: 将内在显著性图(由轻量级 CNN 或 VLM 的早期层得到)与相关分数结合。融合在对数域进行,并通过温度参数进行锐化,突出高相关标记并抑制噪声。
  4. 排序与剪枝: 按融合分数对标记进行排序。用户定义的预算(例如保留 20 % 的标记)决定截断点。
  5. 多样性划分: 为避免丢失所有背景信息,FlashVLM 保留一小部分低分标记,这些标记在空间上分散,以保持粗略的全局上下文。
  6. 将剪枝后的集合输入 VLM: 将缩减后的标记集合传入标准 Transformer 层,显著降低二次注意力成本。

整个流程轻量(无需额外的深度注意力过程),且可以插入任何已经公开标记嵌入的现有 VLM 中。

结果与发现

指标未剪枝基线FlashVLM(剪枝 77.8 %)FlashVLM(剪枝 94.4 %)
准确率(在 14 项基准上的平均)100 %(参考)100.3 %(略有提升)92.8 %
FLOPs 减少≈ 4×≈ 15×
每张图像的 token 数量~1024~224~60
  • 最先进的效率: 在所有测试的 VLM(LLaVA‑1.5、MiniGPT‑4 等)中,FlashVLM 始终优于之前的 token‑削减方法(例如基于注意力的剪枝、均匀下采样)。
  • 鲁棒性: 即使在极端压缩(≥ 94 % token 移除)下,性能下降也很平缓,模型仍保持对分布外提示的强零样本能力。
  • 泛化能力: 相同的 relevance‑fusion 超参数可在图像和视频任务之间直接迁移,表明该方法并未与特定数据集紧密耦合。

实际意义

  • 成本效益高的推理: 在边缘设备、移动 GPU 或无服务器环境上部署 VLM 变得可行,因为二次注意力成本大幅降低。
  • 更快的交互式 AI 助手: 实时多模态聊天机器人(例如基于 LLaVA 的代理)可以更快响应,从而在 AR/VR 或基于网页的应用中提供更流畅的用户体验。
  • 可扩展的视频分析: 传统上处理视频的每一帧成本高昂;FlashVLM 的 token 选择可以逐帧应用,将计算量降低一个数量级,同时仍能回答针对特定帧的问题。
  • 节能: 更低的 FLOPs 直接转化为降低的功耗——这对大规模推理集群和注重可持续性的部署具有吸引力。
  • 即插即用: 由于该方法基于现有的 token 嵌入工作,开发者可以通过最少的代码修改将 FlashVLM 集成到其流水线中(例如在 transformer 编码器之前添加一个预处理钩子)。

限制与未来工作

  • 依赖良好的文本嵌入: 如果语言模型的查询表示较弱(例如,提示模糊),相关性得分可能会误导剪枝决策。
  • 静态预算选择: 当前实现对每幅图像使用固定的 token 预算;基于场景复杂度的自适应预算可能会带来更好的权衡。
  • 仅限于 transformer 风格的 VLM: 对于不公开 token 级别嵌入的模型(例如某些基于扩散的多模态系统),需要额外的工程工作。
  • 未来方向: 作者建议探索学习的温度调度、加入多模态反馈回路(例如首次通过后的重新排序),以及将框架扩展到用于自动驾驶场景的 3D 点云或 LiDAR 数据。

作者

  • Kaitong Cai
  • Jusheng Zhang
  • Jing Yang
  • Yijia Fan
  • Pengtao Xie
  • Jian Wang
  • Keze Wang

论文信息

  • arXiv ID: 2512.20561v1
  • 分类: cs.CV
  • 发表时间: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »