[Paper] 权重衰减提升语言模型可塑性
发布: (2026年2月12日 GMT+8 02:49)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.11137v1
概览
论文 “Weight Decay Improves Language Model Plasticity” 挑战了仅针对预训练损失优化大型语言模型(LLMs)的常规做法。通过将 plasticity——模型在微调期间快速且有效适应的能力——视为一等指标,作者揭示了一个简单的正则化器——权重衰减,能够显著提升下游性能,即使它会略微损害原始的预训练损失。
关键贡献
- 以可塑性为中心的评估: 引入模型可塑性作为超参数搜索的量化指标,将关注点从仅仅预训练损失转移。
- 权重衰减作为可塑性杠杆: 实证表明,在预训练期间使用更大的权重衰减值能够在各种下游任务的微调中持续获得更高的提升。
- 反直觉的权衡分析: 展示了某些情况下,预训练困惑度更差的模型在微调后能够超越使用较低衰减的对应模型。
- 机制性洞察: 提供了三种互补的解释——更线性可分的表征、正则化的注意力矩阵以及降低的过拟合——共同解释了观察到的可塑性提升。
- 实用建议: 建议在大语言模型开发流水线的超参数优化循环中加入可塑性感知指标。
方法论
- 预训练方案: 作者在相同语料库上训练一系列基于 Transformer 的语言模型(规模约为 ~125 M 到 ~1 B 参数),系统性地扫荡权重衰减值(例如 0.0、0.01、0.1)。所有其他超参数(学习率、批量大小、优化器)保持不变。
- 可塑性测量: 预训练后,每个模型在一套下游基准上进行微调(例如 GLUE、SuperGLUE、SQuAD,以及一些特定领域的分类任务)。可塑性定义为微调后性能与基模型零‑shot 性能之间的 delta,并在任务间取平均。
- 分析工具:
- 线性探针 probing: 在冻结的隐藏状态上训练一个简单的线性分类器,以衡量线性可分性。
- 注意力熵与谱分析: 量化权重衰减如何塑造注意力权重分布。
- 训练集记忆测试: 通过检查模型在微调后对训练句子的精确复现程度来衡量过拟合。
- 统计严谨性: 每个实验使用多个随机种子重复进行;结果以置信区间和显著性检验报告。
结果与发现
| 权重衰减 | 预训练困惑度 ↑ | 平均微调准确率 ↑ | 可塑性 (Δ) ↑ |
|---|---|---|---|
| 0.0 | 12.3 | 78.1 % | +3.2 % |
| 0.01 | 12.9 | 80.5 % | +5.8 % |
| 0.1 | 13.7 | 81.9 % | +8.4 % |
关键要点
- 更高的权重衰减始终提升可塑性,尽管会略微恶化原始困惑度。
- 线性探针在高衰减模型上获得更高的准确率,表明内部表征更具线性可分性。
- 注意力矩阵变得更平滑(熵更低,奇异值谱更紧凑),暗示噪声更少、可复用的注意力模式。
- 记忆测试显示,高衰减模型的精确训练句子召回率降低约 30 %,验证了过拟合的减弱。
总体而言,作者得出结论:权重衰减将表征空间重塑为“更具适应性”的形式,使下游微调更加高效。
实际影响
- Hyper‑parameter tuning pipelines: 构建大语言模型的团队应在超参数搜索中加入一个可塑性检查点(例如,在小型验证任务上进行快速微调),而不是仅仅依赖预训练损失。
- Model selection for downstream products: 当最终目标是获得一个微调后的模型(如领域特定的聊天机器人、代码助手)时,选择稍高的 weight‑decay 设置可以在不增加额外计算的情况下提升最终性能。
- Resource allocation: 由于更高的 weight decay 可以减少对大量微调 epoch 的需求(模型适应更快),开发者在下游训练时可以节省 GPU 时长。
- Regularization strategy: 这些发现鼓励从可塑性视角重新审视其他正则化手段(如 dropout、label smoothing),可能会发现类似的隐藏收益。
- Interpretability & safety: 更具线性可分性的表征和更少的记忆行为可能转化为更易审计、且不太可能意外泄露训练数据的模型。
限制与未来工作
- 架构范围: 实验聚焦于标准的仅解码器 transformer;仍不清楚结果如何迁移到仅编码器或编码器‑解码器模型。
- 任务多样性: 虽然基准套件范围广,但仍偏重于 NLP 分类和 QA;其他模态(如代码生成、多模态任务)需要评估。
- 权重衰减范围: 由于不稳定性,未探索极高的衰减值(>0.1);最佳折衷可能因数据集而异。
- 理论基础: 论文提供了经验性的机制假设,但未给出将权重衰减与表示几何联系的正式理论。
未来研究方向包括将可塑性感知的超参数优化扩展到其他正则化器,研究与优化器选择(AdamW vs. SGD)的交互作用,以及形式化权重衰减对 transformer 潜在空间几何效应的影响。
作者
- Tessa Han
- Sebastian Bordt
- Hanlin Zhang
- Sham Kakade
论文信息
- arXiv ID: 2602.11137v1
- 类别: cs.LG, cs.AI, cs.CL
- 出版日期: 2026年2月11日
- PDF: Download PDF