[论文] Fast SAM2 with 文本驱动 Token 剪枝

发布: 1个月前 (2025年12月25日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.21333v1

Overview

本文提出了一种 text‑driven token‑pruning 技术，用于加速 Segment Anything Model 2 (SAM2) 在视频目标分割中的运行。通过在耗时的时序注意力阶段 before 丢弃不相关的视觉 token——利用来自目标相关文本描述的线索，作者实现了最高 42 % faster inference 和 37 % lower GPU memory 使用，同时保持分割质量与原始模型相当。

关键贡献

早期 token 选择层 位于图像编码器和 SAM2 的记忆传播模块之间。
轻量级路由机制 使用以下方式对 token 打分：
1. 局部视觉上下文，
2. 来自以对象为中心的文本（用户提供或自动生成）的语义相关性，和
3. 不确定性信号，以保护模糊或边界区域。
对 SAM2 的核心架构没有任何更改 —— 剪枝是一个插件，可直接嵌入现有流水线。
综合基准测试 显示最高 42.5 % 加速 和 37.4 % 内存降低，且 J‑&‑F 分数几乎无损。
证明 早期 token 剪枝 是实现实时、资源受限视频分割的可行路径。

方法论

视觉编码 – 每个视频帧由 SAM2 的图像编码器处理，生成一组密集的视觉标记（patch 嵌入）。
标记评分 – 一个小型路由网络在三个维度上评估每个标记：
- 局部视觉线索：相邻标记相似度和边缘信息。
- 文本相关性：标记特征与从对象描述（例如 “red soccer ball”）得到的文本嵌入之间的余弦相似度。
- 不确定性：来自轻量分类器的高熵预测，标记可能模糊的区域（对象边界、运动模糊）。
剪枝决策 – 根据综合得分对标记进行排序；可配置的保留比例（例如 30 %–70 %）决定哪些标记被保留。
时间传播 – 仅将保留的标记送入 SAM2 的记忆注意力模块，显著降低二次注意力成本。
分割头 – 下游解码器保持不变，生成对提示对象的最终掩码。

整个剪枝步骤在 V100 上每帧额外增加 ≈ 2 ms，远小于后续注意力层节省的计算量。

结果与发现

指标	基线 SAM2	+ 文本驱动剪枝（保留 30 %）
推理速度 (FPS)	8.1	11.5 (+42 %)
GPU 内存 (GB)	10.2	6.4 (‑37 %)
J‑score（区域相似度）	0.84	0.82
F‑score（轮廓精度）	0.78	0.77

速度与内存提升 大致随保留比例线性缩放；即使是适度的 50 % 保留率也能带来约 25 % 的加速。
分割质量 在五个视频分割基准（DAVIS‑2017、YouTube‑VOS 等）上下降不足 2 %。
消融实验 证实每个评分组件（视觉、文本、不确定性）都有独特贡献；去除文本会降低加速效果，但会削弱对外观相似物体的准确性。

实际意义

Real‑time video analytics: 开发者现在可以在边缘设备（如 Jetson、移动 GPU）上运行类似 SAM2 的分割，用于 AR 覆盖、自动驾驶感知或实时视频编辑等应用。
Cost‑effective cloud inference: 更低的 GPU 内存需求意味着可以使用更小的实例类型或更高的批处理吞吐量，从而降低 SaaS 视频处理平台的运营成本。
Prompt‑aware pipelines: 通过利用自然语言提示，系统会自动将计算聚焦在感兴趣的对象上，实现无需手动 ROI 选择的“搜索‑跟踪”式交互界面。
Plug‑and‑play upgrade: 现有的 SAM2 部署只需通过一次 API 调用即可集成剪枝模块，无需重新训练或改写架构。

限制与未来工作

对高质量文本提示的依赖：糟糕或模糊的描述可能误导 token 排序，导致偶尔的掩码退化。
固定保留比例：当前实现使用静态剪枝比例；自适应策略（例如基于运动复杂度的每帧预算）可能实现更好的权衡。
评估仅限于视频分割：将该方法扩展到其他以 transformer 为主的视觉任务（如视频字幕、多目标跟踪）仍是一个开放方向。
硬件特定的性能分析：收益是在高端 GPU 上测得的；仍需进一步研究在 CPU、NPU 或低功耗 ASIC 上的表现。

总体而言，工作表明 早期、文本引导的 token 剪枝 是一种实用手段，可使像 SAM2 这样的大型视觉基础模型在生产级、对延迟敏感的环境中可行。

作者

Avilasha Mandal
Chaoning Zhang
Fachrina Dewi Puspitasari
Xudong Wang
Jiaquan Zhang
Caiyan Qin
Guoqing Wang
Yang Yang
Heng Tao Shen

论文信息

arXiv ID: 2512.21333v1
分类: cs.CV
出版时间: 2025年12月24日
PDF: 下载 PDF

[论文] Fast SAM2 with 文本驱动 Token 剪枝

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 少看，准看：双向感知塑形用于多模态推理

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

[Paper] Yume-1.5：文本控制的交互式世界生成模型