[Paper] 视觉Transformer中非单调缩放机制
发布: (2025年11月27日 GMT+8 02:07)
7 min read
原文: arXiv
Source: arXiv - 2511.21635v1
Overview
Vision Transformers (ViTs) 已成为许多计算机视觉系统的首选骨干网络,但社区长期以来一直假设“更深 = 更好”。本文颠覆了这一直觉:作者展示了在超过某一点后,增加层数实际上会削弱性能。通过在 ImageNet 上剖析三种流行的 ViT 大小(ViT‑S、ViT‑B、ViT‑L),他们发现了一个可重复的 Cliff‑Plateau‑Climb(悬崖‑平台‑爬升)模式,解释了为何更深的模型有时会停滞甚至退化。
Key Contributions
- 经验性发现了三阶段的尺度模式(Cliff → Plateau → Climb),该模式在 ViT‑S、ViT‑B 和 ViT‑L 中始终出现。
- 证据表明
[CLS]token 的作用随深度减弱,后期层更多依赖于 patch token 之间的分布式共识。 - 提出 Information Scrambling Index(ISI),一种轻量级度量,用于量化每一层 token 之间信息混合的程度。
- 演示更深的 ViT(例如 ViT‑L)将信息‑任务权衡推迟约十层,但额外的深度主要增加了信息扩散,而非任务准确度。
- 开源工具(GitHub 仓库)用于复现分析并将 ISI 应用于任何基于 transformer 的视觉模型。
Methodology
- 模型套件 – 使用相同的数据增强和优化器设置,在 ImageNet‑1k 上训练标准的 ViT‑S、ViT‑B 和 ViT‑L,以隔离深度效应。
- 层级探测 – 在每个 transformer block 之后提取 token 表征,并测量:
- 对
[CLS]token 进行线性探测的分类准确率。 - 对聚合 所有 patch token(例如均值池化)的探测准确率。
- 对
- Information Scrambling Index – 对于每一层,ISI 计算自注意力操作前后 token 表征的平均余弦相似度,并以注意力矩阵的熵进行归一化。ISI 越高 → token 之间信息混合(扰乱)越强。
- 阶段检测 – 绘制准确率和 ISI 曲线,以定位 “Cliff”(急剧下降)、“Plateau”(平坦区)和 “Climb”(逐步恢复)阶段。
- 跨模型比较 – 对齐不同模型尺寸的阶段,观察深度如何平移每个 regime 的出现时点。
Results & Findings
- Cliff‑Plateau‑Climb 模式:三种 ViT 均表现出
[CLS]‑基准准确率的早期陡降(Cliff)、性能几乎不变的长平台期(Plateau),以及后期层的适度恢复(Climb)。 - CLS token 边缘化:Cliff 之后,对
[CLS]token 的线性探测失去预测能力,而对所有 patch 的聚合探测仍在提升,表明模型从中心化表示转向分布式表示。 - ISI 趋势:ISI 在 Cliff 期间急剧上升(高扰乱),在 Plateau 上趋于稳定,在 Climb 期间仅略有增加。ViT‑L 的 ISI 曲线右移约 10 层,意味着其达到相同 token 混合水平所需的层数更多。
- 深度 vs. 性能:在 Plateau 之后继续增加层数收益递减;额外层主要提升扩散(更高 ISI),而对 top‑1 准确率的提升并不成比例。
- 诊断能力:ISI 能够标记模型卡在 Plateau 的时刻,提示此时通过改变注意力头或 token 聚合方式可能比单纯堆叠更多块更有效。
Practical Implications
- 模型规模:对于生产流水线(如边缘推理、云服务),在 Plateau 停止可能更具成本效益,而不是追求更深的变体,后者仅带来微小的准确率提升,却增加了延迟和内存占用。
- 架构调优:设计者可以在训练期间使用 ISI 进行快速 sanity check。如果 ISI 过早进入平台期,可考虑加入 跨 token 共识 机制(如 token‑wise gating、层次池化),而不是单纯增加深度。
- 迁移学习:在微调预训练 ViT 时,聚焦仍表现出 Climb 的后期层可获得更好的下游性能,同时冻结已进入 Plateau 的前期层。
- 硬件分配:了解 ViT‑L 的有效深度实际上比其标称深度短约 10 层,可指导 GPU/TPU 内存预算和 batch‑size 决策。
- 新设计目标:本文提出的 清晰阶段转变 目标可能激发混合模型的灵感,即在学习到的深度阈值后显式从 CLS‑中心转向分布式 token 处理。
Limitations & Future Work
- 数据集范围:实验仅限于 ImageNet‑1k;尚不清楚 Cliff‑Plateau‑Climb 动力学是否在更大、更多样化的数据集(如 ImageNet‑21k、COCO)上同样成立。
- 架构多样性:仅考察了 vanilla ViT 变体。近期的混合模型(如 Swin、DeiT、Conv‑ViT)可能表现出不同的阶段行为。
- ISI 粒度:虽然 ISI 捕捉了 token 混合,但未直接衡量语义对齐;未来的度量可以将扰乱与类别特定信息流结合。
- 干预研究:本文止步于诊断;后续工作可以通过修改注意力模式或 token‑aggregation 策略有意塑造阶段转变,并检验其对性能的影响。
作者提供了完整的代码和分析脚本,感兴趣的开发者可以将 ISI 诊断直接嵌入自己的 transformer 流程并立即开始实验。
Authors
- Anantha Padmanaban Krishna Kumar
Paper Information
- arXiv ID: 2511.21635v1
- Categories: cs.LG, cs.AI, cs.CV
- Published: November 26, 2025
- PDF: Download PDF