[Paper] Vision Transformer 微调受益于非平滑组件

发布: (2026年2月7日 GMT+8 01:12)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06883v1

Overview

该论文研究了为何视觉转换器(ViT)有时在微调时表现优于预期,挑战了“更平滑(即对输入不敏感)的模型总是更好”的常见观点。作者引入了 plasticity(可塑性)的概念——即组件输出对输入扰动的平均变化率——并展示了 ViT 中 较不平滑 的部分(注意力头和前馈层)在将预训练模型适配到新任务时实际上最为重要。

关键贡献

  • Plasticity Metric: 提出一种简单、理论上有依据的度量,用于衡量层对输入变化的敏感性,补充现有的平滑性分析。
  • Theoretical Insight: 通过解析证明,高可塑性与在迁移学习过程中调整表征的更大能力相关联。
  • Empirical Validation: 在多个视觉基准(ImageNet‑A、CIFAR‑10/100、VTAB)上进行大规模微调实验,显示优先考虑高可塑性组件能够带来一致的性能提升。
  • Practical Guidance: 提供具体的做法——冻结低可塑性层(例如早期嵌入层),微调高可塑性层(注意力层 + 前馈层),以提升样本效率。
  • Open‑Source Code: 发布轻量级工具箱 (vit‑plasticity) 用于测量可塑性并复现实验。

方法论

  1. 定义可塑性 – 对于给定的模块 (f(\cdot)),可塑性计算为雅可比矩阵范数的平均值 (\mathbb{E}_{x}|\nabla_x f(x)|)。直观上,它衡量当输入略微扰动时模块输出的“摆动”程度。
  2. 层级分析 – 作者在源任务的留出验证集上为每个 ViT 块(嵌入层、多头注意力、前馈层)计算可塑性。
  3. 微调协议 – 他们在多个下游数据集上比较三种策略:
    • Uniform(统一):微调所有层。
    • Low‑Plasticity Freeze(低可塑性冻结):冻结可塑性得分最低的层。
    • High‑Plasticity Focus(高可塑性聚焦):仅微调可塑性最高的层(注意力层 + 前馈层)。
  4. 评估指标 – 报告标准的 top‑1 准确率、校准误差以及训练稳定性(梯度范数方差)。
  5. 消融实验 – 变化冻结层的数量,测试不同的 ViT 大小(ViT‑B/16、ViT‑L/32),并与其他基于平滑性的启发式方法进行比较。

结果与发现

  • 更高的准确率: 在所有下游任务中,高可塑性聚焦策略在绝对准确率上比完整模型微调高出 0.5–2.3 % ,且使用的可训练参数减少了 30–50 %。
  • 更快的收敛: 仅更新高可塑性模块的模型收敛所需的训练轮数约为完整微调的一半。
  • 鲁棒性: 基于可塑性的微调能够降低校准误差,并且不易出现对源任务的灾难性遗忘。
  • 层级排名一致性: 无论 ViT 深度或预训练数据集如何,注意力层和前馈层始终位列可塑性前 3 名。
  • 理论一致性: 实证趋势与推导的界限相符,表明更高的雅可比范数提升了在迁移过程中重塑特征流形的能力。

实际意义

  • 高效迁移学习: 开发者可以通过冻结低可塑性层(通常是早期的 patch 嵌入层和位置编码),仅更新注意力/前馈块,从而显著降低 GPU 内存占用和训练时间。
  • 资源受限场景: 需要在设备端微调大型预训练 ViT 的 Edge‑AI 流程,现在可以在极少的计算预算下完成。
  • 模型压缩与剪枝: 可塑性得分可用于指导哪些权重进行剪枝或量化,而不会损害微调性能。
  • 自动化微调工具: 已发布的 vit‑plasticity 库可集成到 MLOps 流程中,自动为每个下游任务选择最佳的微调调度。
  • 超越视觉: 可塑性概念与具体架构无关,暗示类似策略可用于提升语言 Transformer、多模态模型,甚至图神经网络的迁移效果。

限制与未来工作

  • 架构范围: 实验聚焦于 vanilla ViT 变体;尚不清楚可塑性在混合模型(如 Swin‑Transformer、Conv‑ViT)中的表现。
  • 数据集多样性: 虽然使用了多个基准,但研究未覆盖极端领域转移(例如医学影像),在这些情况下低可塑性层可能仍携带关键的领域特定先验。
  • 静态可塑性测量: 可塑性仅在源任务上进行测量;在微调过程中进行动态重新评估可能进一步细化需要解冻的层。
  • 理论界限: 当前分析提供了一个高层次的界限;更紧凑、任务特定的保证是一个开放的研究方向。

结论: 通过颠覆平滑性的叙事,这项工作为实践者提供了一个数据驱动的经验法则——关注 Vision Transformers 中的“波动”部分,以实现更快、更廉价且常常更准确的微调。

作者

  • Ambroise Odonnat
  • Laetitia Chapel
  • Romain Tavenard
  • Ievgen Redko

论文信息

  • arXiv ID: 2602.06883v1
  • 分类: cs.LG, cs.CV, stat.ML
  • 发布时间: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »