[Paper] 用于高效视频 VLMs 的统一时空令牌评分

发布: (2026年3月19日 GMT+8 01:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.18004v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

Overview

本文提出了 Spatio‑Temporal Token Scoring (STTS),一种轻量级模块,可在整个视频语言模型中去除不必要的视觉标记——包括 Vision Transformer (ViT) 内部以及在大型语言模型 (LLM) 之前。通过此方法,可将训练和推理的计算成本降低超过一半,同时在 13 个视频问答基准测试中,准确率下降保持在 1% 以下。

关键贡献

  • 统一的 token 剪枝,在整个架构(ViT + LLM)上工作,而不是局限于单一阶段。
  • 无需文本条件或 token 合并;评分机制简单、快速且完全可微。
  • 辅助时间评分损失 加上来自 LLM 的下游梯度信号,用于学习哪些 token 在空间和时间上是冗余的。
  • 高效的打包算法,重新组织剩余 token,以实现最小开销。
  • 实证验证 在 13 个短视频和长视频 QA 数据集上显示约 50% 的 token 减少,62% 的加速,以及 <0.7% 的平均性能损失。
  • 可扩展到更长视频:当采样更多帧时,效率提升会增加,且测试时的扩展甚至提升准确率(比基线高 0.5‑1%)。

方法论

  1. Token Scoring Layer – 对于每一帧,STTS 为 ViT 输出的每个视觉 token 分配一个标量分数。
  2. Temporal Learning – 辅助损失鼓励分数在时间维度上保持一致,帮助模型识别那些几乎不提供新信息的帧。
  3. Spatial Learning – 在反向传播过程中,来自 LLM(VLM 的语言侧)的梯度用于调整分数,实际上教会系统哪些视觉 patch 对下游语言任务重要。
  4. Pruning & Packing – 将分数最低的 token 删除(通常占 50 %),剩余的 token 被打包成紧凑张量,使下游 LLM 看到的是密集序列,无需任何特殊处理。
  5. End‑to‑End Training – 评分模块与 VLM 其余部分一起联合训练;不需要单独的微调阶段。

整个流水线仅增加了少量矩阵乘法,与 ViT 和 LLM 本身的成本相比可以忽略不计。

Results & Findings

指标基线(未剪枝)STTS(50 % 令牌)
平均问答准确率(13 项任务)71.2 %70.5 % (‑0.7 %)
训练加速1.62×
推理加速1.62×
FLOPs 减少~50 %
  • 效率随帧数扩展: 当对每段视频采样更多帧时,相对加速会提升,因为时间冗余增大。
  • 测试时扩展: 通过对长视频动态调整剪枝比例,STTS 实际上相较未剪枝基线提升了 0.5‑1 % 的准确率。
  • 跨任务鲁棒性: 适度的准确率下降在短片段问答(如 TGIF‑QA)和长视频问答(如 ActivityNet‑QA)中均保持。

实际影响

  • 更快的原型制作: 团队可以在普通 GPU 上以大约一半的时间训练视频‑语言模型,从而实现更快的迭代周期。
  • 降低云成本: 推理延迟和计算费用大幅下降,这对视频助手或交互式视频搜索等实时应用至关重要。
  • 边缘部署: 令牌数量的减少使得在资源受限的设备(例如 AR 眼镜)上运行 video‑VLM 成为可能,这些设备的带宽和功耗有限。
  • 可扩展的流水线: 每天处理数千小时视频的分析平台可以集成 STTS,以降低存储和计算开销,同时不牺牲答案质量。
  • 即插即用: 由于 STTS 是一个轻量且可微分的模块,它可以以最少的代码改动嵌入现有的 ViT‑LLM 体系(例如基于 CLIP 的视频问答模型)。

限制与未来工作

  • 依赖辅助损失:时间评分损失是手工设计的;替代的自监督信号可能会带来更好的 token 选择。
  • 固定剪枝比例:当前实现使用固定的 50 % 剪枝;针对每个视频或任务的自适应比例可能进一步提升权衡。
  • 评估仅限于问答:虽然问答是常见基准,但其他视频语言任务(例如字幕生成、检索)仍需测试。
  • 潜在偏差:剪枝可能会不成比例地丢弃那些不太显著但语义重要的区域的 token,这一风险需要系统性分析。

未来的研究可以探索动态、上下文感知的剪枝策略,将 STTS 扩展到视觉之外的多模态输入(例如音频),并将其与新兴的高效 Transformer 架构结合。

作者

  • Jianrui Zhang
  • Yue Yang
  • Rohun Tripathi
  • Winson Han
  • Ranjay Krishna
  • Christopher Clark
  • Yong Jae Lee
  • Sangho Lee

论文信息

  • arXiv ID: 2603.18004v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 出版日期: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »