[Paper] 深度增长模型能克服深度诅咒吗？深入分析

发布: 2个月前 (2025年12月10日 GMT+8 01:12)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08819v1

概览

本文研究了 在训练过程中逐步增加 Transformer 模型深度（MIDAS 提出的技术）为何能够实现更低的训练成本并提升推理性能。通过将该现象与 “深度诅咒”（即在标准 Transformer 中更深层对最终输出贡献甚微）的观察联系起来，作者展示了深度增长模型实际上更充分地利用了各层，重塑了残差流并形成可复用的计算块。

主要贡献

经验关联：深度增长训练（MIDAS）与缓解 Transformer 深度诅咒之间的实证联系。
深度层面分析：揭示中部堆叠增长导致后期层的激活和梯度流比静态深度模型更强。
残差流动力学的改变：增长模型会产生 可置换 的计算块，这些块可以重新排序而不影响性能。
轻量化 MIDAS‑plus 修改（一个简单的调度微调），在下游推理基准（如 Logical Entailment、ProofWriter）上持续提升表现。
完整的消融实验套件：孤立出增长调度、层归一化位置和残差缩放对深度利用的影响。

方法论

模型族

作者在同一语言建模语料上训练了三类 Transformer 编码器：

Static – 从头开始的传统深度（例如 24 层）。
MIDAS – 在训练过程中逐步在网络中部插入新层以增加深度。
MIDAS‑plus – 与 MIDAS 相同，但加入了一个小的残差缩放微调（α‑schedule）。

深度层面探测

对每个检查点计算：

层贡献 – 当某层输出被置零时对输出 logits 的变化。
梯度幅度 – 每层反向传播梯度的平均 ℓ₂ 范数。
残差流相似度 – 每次残差相加前后隐藏状态的余弦相似度。

电路识别

通过对激活模式进行聚类，检测出 可置换块：在不同训练运行中内部表征高度可互换的相邻层组。

基准测试

所有模型在一套推理任务（如 GSM‑8K、MathQA 以及逻辑推理数据集）上进行评估，以量化下游影响。
实验流程保持简洁：使用标准 AdamW 优化器、相同的数据调度，仅更改增长调度，使得结果易于复现。

结果与发现

指标	Static	MIDAS	MIDAS‑plus
后 12 层的平均层贡献（相对基线）	0.12 × baseline	0.48 × baseline	0.55 × baseline
深层的平均梯度范数	0.03	0.11	0.13
残差流余弦漂移	0.21	0.57	0.62
推理基准平均准确率	71.3 %	78.9 %	80.5 %

更深层变得有用：在 Static 模型中，网络后半部分贡献 <15 % 的输出信号，验证了深度诅咒。MIDAS 将其提升至约 50 %，MIDAS‑plus 进一步提升。
残差流重塑：相似度分析表明，增长模型保持了更丰富、更多样的残差更新，这与更高的梯度流动相关。
可置换块：聚类发现 3–4 个稳定块，这些块可以在不降低性能的情况下进行重排，暗示了模块化计算——而 Static 模型很少出现此现象。
基准提升：轻微的架构微调（α‑schedule）在推理任务上带来约 1.5 % 的绝对准确率提升，说明深度增长效应并非仅是理论上的。

实际意义

成本效益的扩展——团队可以在不线性增加 GPU 时长的情况下训练更深的 Transformer；在训练中期插入层可将总 FLOPs 减少约 30 %，同时仍得到更强的模型。
更好的微调——由于后期层现在信息更丰富，在下游任务（尤其是需要多步推理的任务）上微调时可以冻结更少的层，简化迁移学习流程。
模块化模型设计——可置换块的出现为 即插即用 的模型组件打开了大门（例如，用领域特定块替换推理块而无需重新训练整个网络）。
调试与可解释性——当所有层都有实际贡献时，深度层面贡献度量更具意义，有助于开发者定位失败模式或瓶颈。
框架支持——实现 MIDAS‑plus 只需一个能够插入层并调整残差缩放的调度器——这些功能可以以极少的代码改动加入到主流库（如 PyTorch Lightning、Hugging Face Trainer）。

局限性与未来工作

架构范围——实验仅针对仅编码器的 Transformer；尚不清楚解码器占比更高或编码器‑解码器模型（如 LLaMA、T5）在深度增长下的表现。
增长调度的刚性——本文测试了固定的中部插入调度；基于验证损失的自适应调度可能带来进一步收益，但未被探索。
硬件约束——虽然报告了 FLOP 节省，但实际壁钟时间的降低取决于能否动态重新分配 GPU 内存，这在部分平台上是非平凡的工程挑战。
理论基础——可置换块与正式电路模块化概念的关联目前仍是经验性的；建立严格理论可指导自动化块发现。

未来的研究方向包括将深度增长训练扩展到多模态 Transformer、自动化块检测用于模型压缩，以及将增长调度与稀疏化或混合专家技术相结合。

作者

Ferdinand Kapl
Emmanouil Angelis
Tobias Höppe
Kaitlin Maile
Johannes von Oswald
Nino Scherrer
Stefan Bauer

论文信息

arXiv ID: 2512.08819v1
分类: cs.CL, cs.AI, cs.LG
发表时间: 2025年12月9日
PDF: Download PDF

[Paper] 深度增长模型能克服深度诅咒吗？深入分析

概览

主要贡献

方法论

模型族

深度层面探测

电路识别

基准测试

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性