[Paper] 用于高效视频 VLMs 的统一时空令牌评分

发布: 1天前 (2026年3月19日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.18004v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

Overview

本文提出了 Spatio‑Temporal Token Scoring (STTS)，一种轻量级模块，可在整个视频语言模型中去除不必要的视觉标记——包括 Vision Transformer (ViT) 内部以及在大型语言模型 (LLM) 之前。通过此方法，可将训练和推理的计算成本降低超过一半，同时在 13 个视频问答基准测试中，准确率下降保持在 1% 以下。

关键贡献

统一的 token 剪枝，在整个架构（ViT + LLM）上工作，而不是局限于单一阶段。
无需文本条件或 token 合并；评分机制简单、快速且完全可微。
辅助时间评分损失 加上来自 LLM 的下游梯度信号，用于学习哪些 token 在空间和时间上是冗余的。
高效的打包算法，重新组织剩余 token，以实现最小开销。
实证验证 在 13 个短视频和长视频 QA 数据集上显示约 50% 的 token 减少，62% 的加速，以及 <0.7% 的平均性能损失。
可扩展到更长视频：当采样更多帧时，效率提升会增加，且测试时的扩展甚至提升准确率（比基线高 0.5‑1%）。

方法论

Token Scoring Layer – 对于每一帧，STTS 为 ViT 输出的每个视觉 token 分配一个标量分数。
Temporal Learning – 辅助损失鼓励分数在时间维度上保持一致，帮助模型识别那些几乎不提供新信息的帧。
Spatial Learning – 在反向传播过程中，来自 LLM（VLM 的语言侧）的梯度用于调整分数，实际上教会系统哪些视觉 patch 对下游语言任务重要。
Pruning & Packing – 将分数最低的 token 删除（通常占 50 %），剩余的 token 被打包成紧凑张量，使下游 LLM 看到的是密集序列，无需任何特殊处理。
End‑to‑End Training – 评分模块与 VLM 其余部分一起联合训练；不需要单独的微调阶段。

整个流水线仅增加了少量矩阵乘法，与 ViT 和 LLM 本身的成本相比可以忽略不计。

Results & Findings

指标	基线（未剪枝）	STTS（50 % 令牌）
平均问答准确率（13 项任务）	71.2 %	70.5 % (‑0.7 %)
训练加速	1×	1.62×
推理加速	1×	1.62×
FLOPs 减少	—	~50 %

效率随帧数扩展: 当对每段视频采样更多帧时，相对加速会提升，因为时间冗余增大。
测试时扩展: 通过对长视频动态调整剪枝比例，STTS 实际上相较未剪枝基线提升了 0.5‑1 % 的准确率。
跨任务鲁棒性: 适度的准确率下降在短片段问答（如 TGIF‑QA）和长视频问答（如 ActivityNet‑QA）中均保持。

实际影响

更快的原型制作: 团队可以在普通 GPU 上以大约一半的时间训练视频‑语言模型，从而实现更快的迭代周期。
降低云成本: 推理延迟和计算费用大幅下降，这对视频助手或交互式视频搜索等实时应用至关重要。
边缘部署: 令牌数量的减少使得在资源受限的设备（例如 AR 眼镜）上运行 video‑VLM 成为可能，这些设备的带宽和功耗有限。
可扩展的流水线: 每天处理数千小时视频的分析平台可以集成 STTS，以降低存储和计算开销，同时不牺牲答案质量。
即插即用: 由于 STTS 是一个轻量且可微分的模块，它可以以最少的代码改动嵌入现有的 ViT‑LLM 体系（例如基于 CLIP 的视频问答模型）。

限制与未来工作

依赖辅助损失：时间评分损失是手工设计的；替代的自监督信号可能会带来更好的 token 选择。
固定剪枝比例：当前实现使用固定的 50 % 剪枝；针对每个视频或任务的自适应比例可能进一步提升权衡。
评估仅限于问答：虽然问答是常见基准，但其他视频语言任务（例如字幕生成、检索）仍需测试。
潜在偏差：剪枝可能会不成比例地丢弃那些不太显著但语义重要的区域的 token，这一风险需要系统性分析。

未来的研究可以探索动态、上下文感知的剪枝策略，将 STTS 扩展到视觉之外的多模态输入（例如音频），并将其与新兴的高效 Transformer 架构结合。

作者

Jianrui Zhang
Yue Yang
Rohun Tripathi
Winson Han
Ranjay Krishna
Christopher Clark
Yong Jae Lee
Sangho Lee

论文信息

arXiv ID: 2603.18004v1
分类: cs.CV, cs.AI, cs.LG
出版日期: 2026年3月18日
PDF: 下载 PDF

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

Overview

关键贡献

方法论

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] LoST：语义层级标记化用于3D形状

[Paper] VideoAtlas：在对数计算中导航长篇视频

[Paper] MessyKitchens：接触丰富的对象级 3D 场景重建