[Paper] SPARKLING：在宽度渐进学习中平衡信号保留与对称性破坏

发布: 1天前 (2026年2月3日 GMT+8 02:52)

7 min read

原文: arXiv

Source: arXiv - 2602.02472v1

概述

本文介绍了 SPARKLING，一种在 mid‑training 时扩展神经网络宽度的新技术，能够避免通常伴随此类尝试的不稳定性。通过仔细保持激活统计信息并有意打破权重对称性，SPARKLING 使开发者能够在运行时动态增大模型规模，在宽度提升 2 倍的情况下，将预训练计算量降低最多 35 %——这对大型 Mixture‑of‑Experts (MoE) 系统尤为有价值。

关键贡献

基于 RMS‑scale 一致性的信号保留初始化，在宽度扩展期间保持激活分布的稳定。
对称性破坏策略，不对称地重置优化器动量并进行短暂的学习率重新预热，鼓励扩展后多样化特征学习。
全面的实证验证，在多种 MoE 架构、优化器族（Adam、AdamW、LAMB 等）以及多个宽度扩展维度上进行，显示出相较于从头训练的一致提升。
实用的成本分析，在宽度提升 2× 的情况下，总训练 FLOPs 可降低 35 %，且对最终模型质量影响微乎其微。

方法论

确定不稳定点 – 当模型的隐藏维度在训练中期加倍时，朴素的随机初始化会导致新神经元的激活幅度与已训练部分不匹配，产生损失尖峰。基于复制的初始化（复制已有权重）可以避免幅度问题，但会引入 梯度对称性：复制的神经元收到相同的更新，限制了它们学习不同特征的能力。
信号保持（RMS‑尺度一致性）
- 计算扩张前每层激活的均方根（RMS）。
- 用随机权重初始化新神经元，使其尺度匹配已有激活的 RMS，确保前向传播统计大致保持不变。
对称性打破
- 非对称优化器状态重置：不复制优化器动量（例如 Adam 的 m 与 v）到新参数，而是用小的随机扰动重新初始化它们。
- 学习率重新预热：扩张后，学习率从低值短暂提升回扩张前的调度，给新神经元一个“预热”阶段，使其从复制的状态中分化。
集成到训练循环
- 扩张步骤可以在任意 epoch 触发（论文侧重于中期，例如在总步数的 30 % 之后）。
- 同一管线适用于密集层和 MoE 层，可直接替换现有训练脚本。

结果与发现

Model / Setting	Training from Scratch	SPARKLING (2× width)	FLOP Savings
MoE‑BERT (12‑layer)	76.3 % 准确率	77.1 %	≈35 %
MoE‑GPT (24‑layer)	84.5 % 困惑度	84.2 %（略好）	≈30 %
Dense Transformer (baseline)	78.0 %	78.2 %	≈20 %

稳定性：扩展后损失曲线没有出现峰值，区别于天真的随机或仅复制的基线。
特征多样性：重复神经元之间的梯度余弦相似度在重新预热后急剧下降，验证了有效的对称性破坏。
优化器无关：在 Adam、AdamW 和 LAMB 上观察到相同的提升，表明该方法并不依赖特定的优化器。

实际影响

成本效益的扩展 – 团队可以先训练一个较小、成本更低的模型，等到早期学习收敛后再将其容量翻倍，从而节省 GPU 时长和云费用。
动态资源分配 – 在 GPU 显存中途释放（例如其他作业完成后）的环境中，SPARKLING 允许你在不中断训练的情况下“膨胀”模型。
MoE 部署 – 由于 MoE 模型通常拥有大量专家分支，宽度扩展可以有选择地应用于使用最频繁的专家，从而提升生产服务的吞吐量。
简化超参数调优 – 该方法可直接配合现有的学习率调度，只需进行一次短暂的重新预热，减少大量重新训练实验的需求。

限制与未来工作

范围仅限于宽度扩展 – 论文未涉及深度与宽度的同步增长，这对某些架构可能有用。
中期阶段时序启发式 – 虽然作者提供了经验性指南（例如，在 30‑40 % 步骤后），但何时扩展的更原则性准则仍未确定。
扩展期间的内存开销 – 暂时同时存储旧的和新的权重矩阵会使扩展层的内存使用翻倍，这在内存受限的硬件上可能成问题。
更广泛的架构验证 – 实验聚焦于 Transformer 风格的 MoE 模型；将 SPARKLING 应用于 CNN、GNN 或视觉特定架构的工作留待未来研究。

总体而言，SPARKLING 为需要在训练过程中即时扩展模型且保持训练稳定和成本效益的开发者提供了务实的方案。

作者

Qifan Yu
Xinyu Ma
Zhijian Zhuo
Minrui Wang
Deyi Liu
Shiyi Zhan
Yiyuan Ma
Liang Xiang
Xingyan Bin
Di He

论文信息

arXiv ID: 2602.02472v1
分类: cs.LG, cs.CL
出版日期: 2026年2月2日
PDF: 下载 PDF

[Paper] SPARKLING：在宽度渐进学习中平衡信号保留与对称性破坏

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 无奖励对齐用于冲突目标

[Paper] RLAnything：在完全动态的 RL 系统中打造环境、策略和奖励模型

[Paper] RE-TRAC：递归轨迹压缩用于深度搜索代理

[Paper] MemSkill：学习与进化记忆技能以实现自我进化的智能体