[Paper] 频率感知的 Token 缩减用于高效 Vision Transformer

发布: 2个月前 (2025年11月26日 GMT+8 23:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21477v1

概览

Vision Transformers（ViT）已成为许多视觉任务的首选架构，但它们的自注意力层随图像块（token）数量的平方增长，导致在高分辨率输入下计算成本高昂。本文提出了一种 频率感知的 token 缩减 技术，能够智能地裁剪 token 集合——在保留高频细节的同时，对低频信息进行紧凑汇总，从而在不牺牲精度的前提下大幅削减计算量。

关键贡献

基于频率的 token 划分： 通过对注意力图进行简单的谱分析，将 token 分为高频（细节丰富）和低频（平滑）两组。
直流（DC）token 聚合： 将所有低频 token 合并为一个 “DC token”，保留关键的低频内容。
缓解秩塌陷与过度平滑： 通过保留高频 token，防止注意力矩阵退化为低秩，这是激进 token 剪枝常见的失败模式。
全面的实证验证： 在 ImageNet‑1K、COCO 检测和 ADE20K 分割上的实验表明，可实现最高 30 % FLOPs 减少，且 ≤0.5 % top‑1 精度下降（多数情况下甚至略有提升）。
对已有工作进行分析性洞察： 作者剖析了现有的 token 缩减方案（如池化、聚类），揭示了它们隐含的频率偏差，解释了为何某些方法在细粒度任务上性能下降。

方法论

谱线索提取： 对每个注意力层计算注意力矩阵的奇异值。较大的奇异值对应高频成分（锐利边缘、纹理），最小的奇异值捕获 DC（平均）成分。
Token 分类：
- 高频 token 是指其注意力贡献与前 k 个奇异向量对齐的 token。
- 低频 token 为其余 token。
选择性保留： 保持高频 token 不变，它们继续在 transformer 堆栈中传播。
DC token 创建： 通过加权求和（权重由注意力得分决定）聚合低频 token，形成单一的 DC token。该 token 再次注入序列，确保模型仍能感知全局上下文。
动态调度： 高频与低频 token 的比例可在不同阶段进行调节（前期层保留更多 token，后期层更激进剪枝），符合早期处理需要更细粒度细节的直觉。
训练流程： 作者在预训练的 ViT 基础上加入新的 token 缩减模块进行微调，使用与基线相同的损失函数，无需额外监督。

结果与发现

数据集	基线 ViT‑B/16	频率感知缩减	FLOPs ↓	Top‑1 Δ
ImageNet‑1K	81.3 %	81.5 %	30 %	+0.2 %
COCO (mask‑rcnn)	41.2 AP	40.9 AP	28 %	–0.3 AP
ADE20K (分割)	48.1 mIoU	48.3 mIoU	32 %	+0.2 mIoU

秩保持： 缩减后的注意力矩阵相较于均匀 token 剪枝保持更高的有效秩，验证了对秩塌陷的缓解。
过度平滑降低： 可视化结果显示边缘响应更锐利、纹理保留更好，尤其在分割掩码中表现明显。
消融实验： 去除 DC token 或使用普通平均池化代替频率感知选择会导致显著的精度下降（约 1 %），凸显谱线索的重要性。

实际意义

边缘设备与实时推理： 该方法将 FLOPs 大约削减三分之一且几乎不影响精度，使 ViT 在智能手机、无人机或 AR 头显等计算与功耗受限的场景中可行。
混合流水线： 现有基于 ViT 的骨干网络（如目标检测或视频分析）可以直接插入频率感知缩减模块，无需重新设计整体模型，轻松获得性能提升。
更好地扩展到高分辨率输入： 由于 token 数随图像尺寸增长，该方法使得处理 4K 图像的延迟与 224×224 输入相当，为高分辨率医学影像或卫星图像分析打开了大门。
框架支持： 该算法仅依赖标准线性代数操作（SVD 或幂迭代），这些在 PyTorch / TensorFlow 中已高度优化，实现开销极小。

局限性与未来工作

谱计算开销： 每层计算奇异值会带来一定的固定成本；作者通过低秩近似进行缓解，但在超低延迟场景下仍可能产生影响。
静态频率阈值： 当前设计在每个阶段使用固定比例的高频 token；基于输入内容的自适应阈值有望进一步提升效率。
向非视觉 Transformer 的推广： 虽然本文聚焦于 ViT，但将频率感知缩减扩展到 NLP 或多模态 Transformer 仍是未解之题。
对抗扰动鲁棒性： 论文未探讨 token 缩减对模型鲁棒性的影响，这可以作为后续研究的方向。

结论： 通过关注注意力的 “频率” 而非对所有图像块一视同仁，本文提供了一种实用、即插即用的方式来加速 Vision Transformers 并降低资源消耗——这对大规模构建以视觉为中心的 AI 产品具有重要意义。

作者

Dong‑Jae Lee
Jiwan Hur
Jaehyun Choi
Jaemyung Yu
Junmo Kim

论文信息

arXiv ID: 2511.21477v1
分类: cs.CV, cs.AI
发布日期: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] 频率感知的 Token 缩减用于高效 Vision Transformer

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Video‑R2：强化多模态语言模型中的一致且有根基的推理

[Paper] Video-CoM：通过操作链进行交互式视频推理

[Paper] AnyTalker：通过交互细化实现多人物说话视频生成的规模化

[Paper] 视觉生成调优