[Paper] 频率感知的 Token 缩减用于高效 Vision Transformer
发布: (2025年11月26日 GMT+8 23:10)
7 min read
原文: arXiv
Source: arXiv - 2511.21477v1
概览
Vision Transformers(ViT)已成为许多视觉任务的首选架构,但它们的自注意力层随图像块(token)数量的平方增长,导致在高分辨率输入下计算成本高昂。本文提出了一种 频率感知的 token 缩减 技术,能够智能地裁剪 token 集合——在保留高频细节的同时,对低频信息进行紧凑汇总,从而在不牺牲精度的前提下大幅削减计算量。
关键贡献
- 基于频率的 token 划分: 通过对注意力图进行简单的谱分析,将 token 分为高频(细节丰富)和低频(平滑)两组。
- 直流(DC)token 聚合: 将所有低频 token 合并为一个 “DC token”,保留关键的低频内容。
- 缓解秩塌陷与过度平滑: 通过保留高频 token,防止注意力矩阵退化为低秩,这是激进 token 剪枝常见的失败模式。
- 全面的实证验证: 在 ImageNet‑1K、COCO 检测和 ADE20K 分割上的实验表明,可实现最高 30 % FLOPs 减少,且 ≤0.5 % top‑1 精度下降(多数情况下甚至略有提升)。
- 对已有工作进行分析性洞察: 作者剖析了现有的 token 缩减方案(如池化、聚类),揭示了它们隐含的频率偏差,解释了为何某些方法在细粒度任务上性能下降。
方法论
- 谱线索提取: 对每个注意力层计算注意力矩阵的奇异值。较大的奇异值对应高频成分(锐利边缘、纹理),最小的奇异值捕获 DC(平均)成分。
- Token 分类:
- 高频 token 是指其注意力贡献与前 k 个奇异向量对齐的 token。
- 低频 token 为其余 token。
- 选择性保留: 保持高频 token 不变,它们继续在 transformer 堆栈中传播。
- DC token 创建: 通过加权求和(权重由注意力得分决定)聚合低频 token,形成单一的 DC token。该 token 再次注入序列,确保模型仍能感知全局上下文。
- 动态调度: 高频与低频 token 的比例可在不同阶段进行调节(前期层保留更多 token,后期层更激进剪枝),符合早期处理需要更细粒度细节的直觉。
- 训练流程: 作者在预训练的 ViT 基础上加入新的 token 缩减模块进行微调,使用与基线相同的损失函数,无需额外监督。
结果与发现
| 数据集 | 基线 ViT‑B/16 | 频率感知缩减 | FLOPs ↓ | Top‑1 Δ |
|---|---|---|---|---|
| ImageNet‑1K | 81.3 % | 81.5 % | 30 % | +0.2 % |
| COCO (mask‑rcnn) | 41.2 AP | 40.9 AP | 28 % | –0.3 AP |
| ADE20K (分割) | 48.1 mIoU | 48.3 mIoU | 32 % | +0.2 mIoU |
- 秩保持: 缩减后的注意力矩阵相较于均匀 token 剪枝保持更高的有效秩,验证了对秩塌陷的缓解。
- 过度平滑降低: 可视化结果显示边缘响应更锐利、纹理保留更好,尤其在分割掩码中表现明显。
- 消融实验: 去除 DC token 或使用普通平均池化代替频率感知选择会导致显著的精度下降(约 1 %),凸显谱线索的重要性。
实际意义
- 边缘设备与实时推理: 该方法将 FLOPs 大约削减三分之一且几乎不影响精度,使 ViT 在智能手机、无人机或 AR 头显等计算与功耗受限的场景中可行。
- 混合流水线: 现有基于 ViT 的骨干网络(如目标检测或视频分析)可以直接插入频率感知缩减模块,无需重新设计整体模型,轻松获得性能提升。
- 更好地扩展到高分辨率输入: 由于 token 数随图像尺寸增长,该方法使得处理 4K 图像的延迟与 224×224 输入相当,为高分辨率医学影像或卫星图像分析打开了大门。
- 框架支持: 该算法仅依赖标准线性代数操作(SVD 或幂迭代),这些在 PyTorch / TensorFlow 中已高度优化,实现开销极小。
局限性与未来工作
- 谱计算开销: 每层计算奇异值会带来一定的固定成本;作者通过低秩近似进行缓解,但在超低延迟场景下仍可能产生影响。
- 静态频率阈值: 当前设计在每个阶段使用固定比例的高频 token;基于输入内容的自适应阈值有望进一步提升效率。
- 向非视觉 Transformer 的推广: 虽然本文聚焦于 ViT,但将频率感知缩减扩展到 NLP 或多模态 Transformer 仍是未解之题。
- 对抗扰动鲁棒性: 论文未探讨 token 缩减对模型鲁棒性的影响,这可以作为后续研究的方向。
结论: 通过关注注意力的 “频率” 而非对所有图像块一视同仁,本文提供了一种实用、即插即用的方式来加速 Vision Transformers 并降低资源消耗——这对大规模构建以视觉为中心的 AI 产品具有重要意义。
作者
- Dong‑Jae Lee
- Jiwan Hur
- Jaehyun Choi
- Jaemyung Yu
- Junmo Kim
论文信息
- arXiv ID: 2511.21477v1
- 分类: cs.CV, cs.AI
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF