[Paper] 深度增长模型能克服深度诅咒吗?深入分析

发布: (2025年12月10日 GMT+8 01:12)
7 min read
原文: arXiv

Source: arXiv - 2512.08819v1

概览

本文研究了 在训练过程中逐步增加 Transformer 模型深度(MIDAS 提出的技术)为何能够实现更低的训练成本并提升推理性能。通过将该现象与 “深度诅咒”(即在标准 Transformer 中更深层对最终输出贡献甚微)的观察联系起来,作者展示了深度增长模型实际上更充分地利用了各层,重塑了残差流并形成可复用的计算块。

主要贡献

  • 经验关联:深度增长训练(MIDAS)与缓解 Transformer 深度诅咒之间的实证联系。
  • 深度层面分析:揭示中部堆叠增长导致后期层的激活和梯度流比静态深度模型更强。
  • 残差流动力学的改变:增长模型会产生 可置换 的计算块,这些块可以重新排序而不影响性能。
  • 轻量化 MIDAS‑plus 修改(一个简单的调度微调),在下游推理基准(如 Logical Entailment、ProofWriter)上持续提升表现。
  • 完整的消融实验套件:孤立出增长调度、层归一化位置和残差缩放对深度利用的影响。

方法论

模型族

作者在同一语言建模语料上训练了三类 Transformer 编码器:

  • Static – 从头开始的传统深度(例如 24 层)。
  • MIDAS – 在训练过程中逐步在网络中部插入新层以增加深度。
  • MIDAS‑plus – 与 MIDAS 相同,但加入了一个小的残差缩放微调(α‑schedule)。

深度层面探测

对每个检查点计算:

  • 层贡献 – 当某层输出被置零时对输出 logits 的变化。
  • 梯度幅度 – 每层反向传播梯度的平均 ℓ₂ 范数。
  • 残差流相似度 – 每次残差相加前后隐藏状态的余弦相似度。

电路识别

通过对激活模式进行聚类,检测出 可置换块:在不同训练运行中内部表征高度可互换的相邻层组。

基准测试

所有模型在一套推理任务(如 GSM‑8K、MathQA 以及逻辑推理数据集)上进行评估,以量化下游影响。
实验流程保持简洁:使用标准 AdamW 优化器、相同的数据调度,仅更改增长调度,使得结果易于复现。

结果与发现

指标StaticMIDASMIDAS‑plus
后 12 层的平均层贡献(相对基线)0.12 × baseline0.48 × baseline0.55 × baseline
深层的平均梯度范数0.030.110.13
残差流余弦漂移0.210.570.62
推理基准平均准确率71.3 %78.9 %80.5 %
  • 更深层变得有用:在 Static 模型中,网络后半部分贡献 <15 % 的输出信号,验证了深度诅咒。MIDAS 将其提升至约 50 %,MIDAS‑plus 进一步提升。
  • 残差流重塑:相似度分析表明,增长模型保持了更丰富、更多样的残差更新,这与更高的梯度流动相关。
  • 可置换块:聚类发现 3–4 个稳定块,这些块可以在不降低性能的情况下进行重排,暗示了模块化计算——而 Static 模型很少出现此现象。
  • 基准提升:轻微的架构微调(α‑schedule)在推理任务上带来约 1.5 % 的绝对准确率提升,说明深度增长效应并非仅是理论上的。

实际意义

  • 成本效益的扩展——团队可以在不线性增加 GPU 时长的情况下训练更深的 Transformer;在训练中期插入层可将总 FLOPs 减少约 30 %,同时仍得到更强的模型。
  • 更好的微调——由于后期层现在信息更丰富,在下游任务(尤其是需要多步推理的任务)上微调时可以冻结更少的层,简化迁移学习流程。
  • 模块化模型设计——可置换块的出现为 即插即用 的模型组件打开了大门(例如,用领域特定块替换推理块而无需重新训练整个网络)。
  • 调试与可解释性——当所有层都有实际贡献时,深度层面贡献度量更具意义,有助于开发者定位失败模式或瓶颈。
  • 框架支持——实现 MIDAS‑plus 只需一个能够插入层并调整残差缩放的调度器——这些功能可以以极少的代码改动加入到主流库(如 PyTorch Lightning、Hugging Face Trainer)。

局限性与未来工作

  • 架构范围——实验仅针对仅编码器的 Transformer;尚不清楚解码器占比更高或编码器‑解码器模型(如 LLaMA、T5)在深度增长下的表现。
  • 增长调度的刚性——本文测试了固定的中部插入调度;基于验证损失的自适应调度可能带来进一步收益,但未被探索。
  • 硬件约束——虽然报告了 FLOP 节省,但实际壁钟时间的降低取决于能否动态重新分配 GPU 内存,这在部分平台上是非平凡的工程挑战。
  • 理论基础——可置换块与正式电路模块化概念的关联目前仍是经验性的;建立严格理论可指导自动化块发现。

未来的研究方向包括将深度增长训练扩展到多模态 Transformer、自动化块检测用于模型压缩,以及将增长调度与稀疏化或混合专家技术相结合。

作者

  • Ferdinand Kapl
  • Emmanouil Angelis
  • Tobias Höppe
  • Kaitlin Maile
  • Johannes von Oswald
  • Nino Scherrer
  • Stefan Bauer

论文信息

  • arXiv ID: 2512.08819v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发表时间: 2025年12月9日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »