[论文] Fast SAM2 with 文本驱动 Token 剪枝
发布: (2025年12月25日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.21333v1
Overview
本文提出了一种 text‑driven token‑pruning 技术,用于加速 Segment Anything Model 2 (SAM2) 在视频目标分割中的运行。通过在耗时的时序注意力阶段 before 丢弃不相关的视觉 token——利用来自目标相关文本描述的线索,作者实现了最高 42 % faster inference 和 37 % lower GPU memory 使用,同时保持分割质量与原始模型相当。
关键贡献
- 早期 token 选择层 位于图像编码器和 SAM2 的记忆传播模块之间。
- 轻量级路由机制 使用以下方式对 token 打分:
- 局部视觉上下文,
- 来自以对象为中心的文本(用户提供或自动生成)的语义相关性,和
- 不确定性信号,以保护模糊或边界区域。
- 对 SAM2 的核心架构没有任何更改 —— 剪枝是一个插件,可直接嵌入现有流水线。
- 综合基准测试 显示最高 42.5 % 加速 和 37.4 % 内存降低,且 J‑&‑F 分数几乎无损。
- 证明 早期 token 剪枝 是实现实时、资源受限视频分割的可行路径。
方法论
- 视觉编码 – 每个视频帧由 SAM2 的图像编码器处理,生成一组密集的视觉标记(patch 嵌入)。
- 标记评分 – 一个小型路由网络在三个维度上评估每个标记:
- 局部视觉线索:相邻标记相似度和边缘信息。
- 文本相关性:标记特征与从对象描述(例如 “red soccer ball”)得到的文本嵌入之间的余弦相似度。
- 不确定性:来自轻量分类器的高熵预测,标记可能模糊的区域(对象边界、运动模糊)。
- 剪枝决策 – 根据综合得分对标记进行排序;可配置的保留比例(例如 30 %–70 %)决定哪些标记被保留。
- 时间传播 – 仅将保留的标记送入 SAM2 的记忆注意力模块,显著降低二次注意力成本。
- 分割头 – 下游解码器保持不变,生成对提示对象的最终掩码。
整个剪枝步骤在 V100 上每帧额外增加 ≈ 2 ms,远小于后续注意力层节省的计算量。
结果与发现
| 指标 | 基线 SAM2 | + 文本驱动剪枝(保留 30 %) |
|---|---|---|
| 推理速度 (FPS) | 8.1 | 11.5 (+42 %) |
| GPU 内存 (GB) | 10.2 | 6.4 (‑37 %) |
| J‑score(区域相似度) | 0.84 | 0.82 |
| F‑score(轮廓精度) | 0.78 | 0.77 |
- 速度与内存提升 大致随保留比例线性缩放;即使是适度的 50 % 保留率也能带来约 25 % 的加速。
- 分割质量 在五个视频分割基准(DAVIS‑2017、YouTube‑VOS 等)上下降不足 2 %。
- 消融实验 证实每个评分组件(视觉、文本、不确定性)都有独特贡献;去除文本会降低加速效果,但会削弱对外观相似物体的准确性。
实际意义
- Real‑time video analytics: 开发者现在可以在边缘设备(如 Jetson、移动 GPU)上运行类似 SAM2 的分割,用于 AR 覆盖、自动驾驶感知或实时视频编辑等应用。
- Cost‑effective cloud inference: 更低的 GPU 内存需求意味着可以使用更小的实例类型或更高的批处理吞吐量,从而降低 SaaS 视频处理平台的运营成本。
- Prompt‑aware pipelines: 通过利用自然语言提示,系统会自动将计算聚焦在感兴趣的对象上,实现无需手动 ROI 选择的“搜索‑跟踪”式交互界面。
- Plug‑and‑play upgrade: 现有的 SAM2 部署只需通过一次 API 调用即可集成剪枝模块,无需重新训练或改写架构。
限制与未来工作
- 对高质量文本提示的依赖:糟糕或模糊的描述可能误导 token 排序,导致偶尔的掩码退化。
- 固定保留比例:当前实现使用静态剪枝比例;自适应策略(例如基于运动复杂度的每帧预算)可能实现更好的权衡。
- 评估仅限于视频分割:将该方法扩展到其他以 transformer 为主的视觉任务(如视频字幕、多目标跟踪)仍是一个开放方向。
- 硬件特定的性能分析:收益是在高端 GPU 上测得的;仍需进一步研究在 CPU、NPU 或低功耗 ASIC 上的表现。
总体而言,工作表明 早期、文本引导的 token 剪枝 是一种实用手段,可使像 SAM2 这样的大型视觉基础模型在生产级、对延迟敏感的环境中可行。
作者
- Avilasha Mandal
- Chaoning Zhang
- Fachrina Dewi Puspitasari
- Xudong Wang
- Jiaquan Zhang
- Caiyan Qin
- Guoqing Wang
- Yang Yang
- Heng Tao Shen
论文信息
- arXiv ID: 2512.21333v1
- 分类: cs.CV
- 出版时间: 2025年12月24日
- PDF: 下载 PDF