[Paper] 用于高效视频 VLMs 的统一时空令牌评分
发布: (2026年3月19日 GMT+8 01:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.18004v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。
Overview
本文提出了 Spatio‑Temporal Token Scoring (STTS),一种轻量级模块,可在整个视频语言模型中去除不必要的视觉标记——包括 Vision Transformer (ViT) 内部以及在大型语言模型 (LLM) 之前。通过此方法,可将训练和推理的计算成本降低超过一半,同时在 13 个视频问答基准测试中,准确率下降保持在 1% 以下。
关键贡献
- 统一的 token 剪枝,在整个架构(ViT + LLM)上工作,而不是局限于单一阶段。
- 无需文本条件或 token 合并;评分机制简单、快速且完全可微。
- 辅助时间评分损失 加上来自 LLM 的下游梯度信号,用于学习哪些 token 在空间和时间上是冗余的。
- 高效的打包算法,重新组织剩余 token,以实现最小开销。
- 实证验证 在 13 个短视频和长视频 QA 数据集上显示约 50% 的 token 减少,62% 的加速,以及 <0.7% 的平均性能损失。
- 可扩展到更长视频:当采样更多帧时,效率提升会增加,且测试时的扩展甚至提升准确率(比基线高 0.5‑1%)。
方法论
- Token Scoring Layer – 对于每一帧,STTS 为 ViT 输出的每个视觉 token 分配一个标量分数。
- Temporal Learning – 辅助损失鼓励分数在时间维度上保持一致,帮助模型识别那些几乎不提供新信息的帧。
- Spatial Learning – 在反向传播过程中,来自 LLM(VLM 的语言侧)的梯度用于调整分数,实际上教会系统哪些视觉 patch 对下游语言任务重要。
- Pruning & Packing – 将分数最低的 token 删除(通常占 50 %),剩余的 token 被打包成紧凑张量,使下游 LLM 看到的是密集序列,无需任何特殊处理。
- End‑to‑End Training – 评分模块与 VLM 其余部分一起联合训练;不需要单独的微调阶段。
整个流水线仅增加了少量矩阵乘法,与 ViT 和 LLM 本身的成本相比可以忽略不计。
Results & Findings
| 指标 | 基线(未剪枝) | STTS(50 % 令牌) |
|---|---|---|
| 平均问答准确率(13 项任务) | 71.2 % | 70.5 % (‑0.7 %) |
| 训练加速 | 1× | 1.62× |
| 推理加速 | 1× | 1.62× |
| FLOPs 减少 | — | ~50 % |
- 效率随帧数扩展: 当对每段视频采样更多帧时,相对加速会提升,因为时间冗余增大。
- 测试时扩展: 通过对长视频动态调整剪枝比例,STTS 实际上相较未剪枝基线提升了 0.5‑1 % 的准确率。
- 跨任务鲁棒性: 适度的准确率下降在短片段问答(如 TGIF‑QA)和长视频问答(如 ActivityNet‑QA)中均保持。
实际影响
- 更快的原型制作: 团队可以在普通 GPU 上以大约一半的时间训练视频‑语言模型,从而实现更快的迭代周期。
- 降低云成本: 推理延迟和计算费用大幅下降,这对视频助手或交互式视频搜索等实时应用至关重要。
- 边缘部署: 令牌数量的减少使得在资源受限的设备(例如 AR 眼镜)上运行 video‑VLM 成为可能,这些设备的带宽和功耗有限。
- 可扩展的流水线: 每天处理数千小时视频的分析平台可以集成 STTS,以降低存储和计算开销,同时不牺牲答案质量。
- 即插即用: 由于 STTS 是一个轻量且可微分的模块,它可以以最少的代码改动嵌入现有的 ViT‑LLM 体系(例如基于 CLIP 的视频问答模型)。
限制与未来工作
- 依赖辅助损失:时间评分损失是手工设计的;替代的自监督信号可能会带来更好的 token 选择。
- 固定剪枝比例:当前实现使用固定的 50 % 剪枝;针对每个视频或任务的自适应比例可能进一步提升权衡。
- 评估仅限于问答:虽然问答是常见基准,但其他视频语言任务(例如字幕生成、检索)仍需测试。
- 潜在偏差:剪枝可能会不成比例地丢弃那些不太显著但语义重要的区域的 token,这一风险需要系统性分析。
未来的研究可以探索动态、上下文感知的剪枝策略,将 STTS 扩展到视觉之外的多模态输入(例如音频),并将其与新兴的高效 Transformer 架构结合。
作者
- Jianrui Zhang
- Yue Yang
- Rohun Tripathi
- Winson Han
- Ranjay Krishna
- Christopher Clark
- Yong Jae Lee
- Sangho Lee
论文信息
- arXiv ID: 2603.18004v1
- 分类: cs.CV, cs.AI, cs.LG
- 出版日期: 2026年3月18日
- PDF: 下载 PDF