[论文] Fast SAM2 with 文本驱动 Token 剪枝

发布: (2025年12月25日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.21333v1

Overview

本文提出了一种 text‑driven token‑pruning 技术,用于加速 Segment Anything Model 2 (SAM2) 在视频目标分割中的运行。通过在耗时的时序注意力阶段 before 丢弃不相关的视觉 token——利用来自目标相关文本描述的线索,作者实现了最高 42 % faster inference37 % lower GPU memory 使用,同时保持分割质量与原始模型相当。

关键贡献

  • 早期 token 选择层 位于图像编码器和 SAM2 的记忆传播模块之间。
  • 轻量级路由机制 使用以下方式对 token 打分:
    1. 局部视觉上下文,
    2. 来自以对象为中心的文本(用户提供或自动生成)的语义相关性,和
    3. 不确定性信号,以保护模糊或边界区域。
  • 对 SAM2 的核心架构没有任何更改 —— 剪枝是一个插件,可直接嵌入现有流水线。
  • 综合基准测试 显示最高 42.5 % 加速37.4 % 内存降低,且 J‑&‑F 分数几乎无损。
  • 证明 早期 token 剪枝 是实现实时、资源受限视频分割的可行路径。

方法论

  1. 视觉编码 – 每个视频帧由 SAM2 的图像编码器处理,生成一组密集的视觉标记(patch 嵌入)。
  2. 标记评分 – 一个小型路由网络在三个维度上评估每个标记:
    • 局部视觉线索:相邻标记相似度和边缘信息。
    • 文本相关性:标记特征与从对象描述(例如 “red soccer ball”)得到的文本嵌入之间的余弦相似度。
    • 不确定性:来自轻量分类器的高熵预测,标记可能模糊的区域(对象边界、运动模糊)。
  3. 剪枝决策 – 根据综合得分对标记进行排序;可配置的保留比例(例如 30 %–70 %)决定哪些标记被保留。
  4. 时间传播 – 仅将保留的标记送入 SAM2 的记忆注意力模块,显著降低二次注意力成本。
  5. 分割头 – 下游解码器保持不变,生成对提示对象的最终掩码。

整个剪枝步骤在 V100 上每帧额外增加 ≈ 2 ms,远小于后续注意力层节省的计算量。

结果与发现

指标基线 SAM2+ 文本驱动剪枝(保留 30 %)
推理速度 (FPS)8.111.5 (+42 %)
GPU 内存 (GB)10.26.4 (‑37 %)
J‑score(区域相似度)0.840.82
F‑score(轮廓精度)0.780.77
  • 速度与内存提升 大致随保留比例线性缩放;即使是适度的 50 % 保留率也能带来约 25 % 的加速。
  • 分割质量 在五个视频分割基准(DAVIS‑2017、YouTube‑VOS 等)上下降不足 2 %。
  • 消融实验 证实每个评分组件(视觉、文本、不确定性)都有独特贡献;去除文本会降低加速效果,但会削弱对外观相似物体的准确性。

实际意义

  • Real‑time video analytics: 开发者现在可以在边缘设备(如 Jetson、移动 GPU)上运行类似 SAM2 的分割,用于 AR 覆盖、自动驾驶感知或实时视频编辑等应用。
  • Cost‑effective cloud inference: 更低的 GPU 内存需求意味着可以使用更小的实例类型或更高的批处理吞吐量,从而降低 SaaS 视频处理平台的运营成本。
  • Prompt‑aware pipelines: 通过利用自然语言提示,系统会自动将计算聚焦在感兴趣的对象上,实现无需手动 ROI 选择的“搜索‑跟踪”式交互界面。
  • Plug‑and‑play upgrade: 现有的 SAM2 部署只需通过一次 API 调用即可集成剪枝模块,无需重新训练或改写架构。

限制与未来工作

  • 对高质量文本提示的依赖:糟糕或模糊的描述可能误导 token 排序,导致偶尔的掩码退化。
  • 固定保留比例:当前实现使用静态剪枝比例;自适应策略(例如基于运动复杂度的每帧预算)可能实现更好的权衡。
  • 评估仅限于视频分割:将该方法扩展到其他以 transformer 为主的视觉任务(如视频字幕、多目标跟踪)仍是一个开放方向。
  • 硬件特定的性能分析:收益是在高端 GPU 上测得的;仍需进一步研究在 CPU、NPU 或低功耗 ASIC 上的表现。

总体而言,工作表明 早期、文本引导的 token 剪枝 是一种实用手段,可使像 SAM2 这样的大型视觉基础模型在生产级、对延迟敏感的环境中可行。

作者

  • Avilasha Mandal
  • Chaoning Zhang
  • Fachrina Dewi Puspitasari
  • Xudong Wang
  • Jiaquan Zhang
  • Caiyan Qin
  • Guoqing Wang
  • Yang Yang
  • Heng Tao Shen

论文信息

  • arXiv ID: 2512.21333v1
  • 分类: cs.CV
  • 出版时间: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 流媒体视频指令微调

我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……