[Paper] 频率感知的 Token 缩减用于高效 Vision Transformer

发布: (2025年11月26日 GMT+8 23:10)
7 min read
原文: arXiv

Source: arXiv - 2511.21477v1

概览

Vision Transformers(ViT)已成为许多视觉任务的首选架构,但它们的自注意力层随图像块(token)数量的平方增长,导致在高分辨率输入下计算成本高昂。本文提出了一种 频率感知的 token 缩减 技术,能够智能地裁剪 token 集合——在保留高频细节的同时,对低频信息进行紧凑汇总,从而在不牺牲精度的前提下大幅削减计算量。

关键贡献

  • 基于频率的 token 划分: 通过对注意力图进行简单的谱分析,将 token 分为高频(细节丰富)和低频(平滑)两组。
  • 直流(DC)token 聚合: 将所有低频 token 合并为一个 “DC token”,保留关键的低频内容。
  • 缓解秩塌陷与过度平滑: 通过保留高频 token,防止注意力矩阵退化为低秩,这是激进 token 剪枝常见的失败模式。
  • 全面的实证验证: 在 ImageNet‑1K、COCO 检测和 ADE20K 分割上的实验表明,可实现最高 30 % FLOPs 减少,且 ≤0.5 % top‑1 精度下降(多数情况下甚至略有提升)。
  • 对已有工作进行分析性洞察: 作者剖析了现有的 token 缩减方案(如池化、聚类),揭示了它们隐含的频率偏差,解释了为何某些方法在细粒度任务上性能下降。

方法论

  1. 谱线索提取: 对每个注意力层计算注意力矩阵的奇异值。较大的奇异值对应高频成分(锐利边缘、纹理),最小的奇异值捕获 DC(平均)成分。
  2. Token 分类:
    • 高频 token 是指其注意力贡献与前 k 个奇异向量对齐的 token。
    • 低频 token 为其余 token。
  3. 选择性保留: 保持高频 token 不变,它们继续在 transformer 堆栈中传播。
  4. DC token 创建: 通过加权求和(权重由注意力得分决定)聚合低频 token,形成单一的 DC token。该 token 再次注入序列,确保模型仍能感知全局上下文。
  5. 动态调度: 高频与低频 token 的比例可在不同阶段进行调节(前期层保留更多 token,后期层更激进剪枝),符合早期处理需要更细粒度细节的直觉。
  6. 训练流程: 作者在预训练的 ViT 基础上加入新的 token 缩减模块进行微调,使用与基线相同的损失函数,无需额外监督。

结果与发现

数据集基线 ViT‑B/16频率感知缩减FLOPs ↓Top‑1 Δ
ImageNet‑1K81.3 %81.5 %30 %+0.2 %
COCO (mask‑rcnn)41.2 AP40.9 AP28 %–0.3 AP
ADE20K (分割)48.1 mIoU48.3 mIoU32 %+0.2 mIoU
  • 秩保持: 缩减后的注意力矩阵相较于均匀 token 剪枝保持更高的有效秩,验证了对秩塌陷的缓解。
  • 过度平滑降低: 可视化结果显示边缘响应更锐利、纹理保留更好,尤其在分割掩码中表现明显。
  • 消融实验: 去除 DC token 或使用普通平均池化代替频率感知选择会导致显著的精度下降(约 1 %),凸显谱线索的重要性。

实际意义

  • 边缘设备与实时推理: 该方法将 FLOPs 大约削减三分之一且几乎不影响精度,使 ViT 在智能手机、无人机或 AR 头显等计算与功耗受限的场景中可行。
  • 混合流水线: 现有基于 ViT 的骨干网络(如目标检测或视频分析)可以直接插入频率感知缩减模块,无需重新设计整体模型,轻松获得性能提升。
  • 更好地扩展到高分辨率输入: 由于 token 数随图像尺寸增长,该方法使得处理 4K 图像的延迟与 224×224 输入相当,为高分辨率医学影像或卫星图像分析打开了大门。
  • 框架支持: 该算法仅依赖标准线性代数操作(SVD 或幂迭代),这些在 PyTorch / TensorFlow 中已高度优化,实现开销极小。

局限性与未来工作

  • 谱计算开销: 每层计算奇异值会带来一定的固定成本;作者通过低秩近似进行缓解,但在超低延迟场景下仍可能产生影响。
  • 静态频率阈值: 当前设计在每个阶段使用固定比例的高频 token;基于输入内容的自适应阈值有望进一步提升效率。
  • 向非视觉 Transformer 的推广: 虽然本文聚焦于 ViT,但将频率感知缩减扩展到 NLP 或多模态 Transformer 仍是未解之题。
  • 对抗扰动鲁棒性: 论文未探讨 token 缩减对模型鲁棒性的影响,这可以作为后续研究的方向。

结论: 通过关注注意力的 “频率” 而非对所有图像块一视同仁,本文提供了一种实用、即插即用的方式来加速 Vision Transformers 并降低资源消耗——这对大规模构建以视觉为中心的 AI 产品具有重要意义。

作者

  • Dong‑Jae Lee
  • Jiwan Hur
  • Jaehyun Choi
  • Jaemyung Yu
  • Junmo Kim

论文信息

  • arXiv ID: 2511.21477v1
  • 分类: cs.CV, cs.AI
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »