[论文] 优化器-模型一致性:使用与预训练相同的优化器进行全微调可减少遗忘
发布: (2026年5月8日 GMT+8 01:57)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.06654v1
请提供您希望翻译的正文内容,我将为您翻译成简体中文,并保留原始的链接和格式。
概述
作者们研究了一个出人意料地简单却强大的想法:在微调大型语言模型(LLM)时,继续使用预训练时使用的完全相同的优化器。他们的实验表明,这种“优化器‑模型一致性”能够显著降低灾难性遗忘,同时仍能达到(甚至超越)传统微调流程的性能——后者通常会更换优化器或依赖 LoRA 等参数高效技巧。
关键贡献
- 经验性发现优化器‑模型一致性: 使用预训练优化器进行全参数微调时,遗忘程度始终低于其他优化器或基于 LoRA 的方法。
- 正则化视角: 展示了优化器在隐藏激活上充当隐式正则化器,塑造了围绕预训练检查点的损失景观。
- 理论洞察: 表明在优化器引入的正则化条件下,最优的微调权重更新必须遵循一种特定结构,而该结构在重复使用同一优化器时自然产生。
- 优化器比较(Muon vs. AdamW): 提供了一项受控研究,揭示鼓励死记硬背的 Muon 相较于 AdamW 会损害推理任务的微调效果。
- 合成语言模型实验: 孤立记忆效应,并确认在仅有少量微调数据时,强记忆会阻碍模式学习。
方法论
- 受控微调实验 – 作者使用多个公开可得的 LLM 检查点(例如 GPT‑2‑like 模型),在下游任务(分类、推理等)上进行微调,使用不同的优化器:原始的预训练优化器(AdamW 或 Muon)与不匹配的优化器以及 LoRA。
- 遗忘度量 – 微调后,他们在保留的“预训练”测试集(例如语言模型困惑度)上评估模型,以量化丢失了多少知识,同时报告下游任务的表现。
- 激活正则化分析 – 通过在预训练期间跟踪激活统计量(范数、方差),他们描述每个优化器的隐式正则化效果。
- 理论建模 – 他们将优化器的正则化形式化为损失中的惩罚项,并推导出在何种条件下微调梯度与预训练损失曲面对齐,从而最小化遗忘。
- 合成记忆基准 – 构建一个玩具语言建模数据集,在该数据集上可以直接衡量记忆与模式学习的区别,从而对 Muon 与 AdamW 进行清晰的比较。
结果与发现
| 实验 | 预训练使用的优化器 | 微调使用的优化器 | 下游任务得分 | 遗忘(预训练 LM 损失) |
|---|---|---|---|---|
| 标准 SFT(AdamW) | AdamW | AdamW(相同) | ↑↑(基线) | 小幅增加(遗忘低) |
| 不匹配的优化器 | AdamW | AdamW → SGD | 相同/略低 | 更大幅增加(遗忘更多) |
| LoRA(AdamW 预训练) | AdamW | LoRA(AdamW) | 可比 | 明显遗忘 |
| Muon 预训练,AdamW 微调 | Muon | AdamW | ↓(更差) | 高遗忘 |
| Muon 预训练,Muon 微调 | Muon | Muon(相同) | 略好于不匹配 | 仍高于 AdamW‑AdamW 的遗忘 |
- 优化器与模型的一致性带来最佳权衡:在各阶段使用相同的优化器能够保留更多的预训练知识,同时实现相等或更好的下游准确率。
- AdamW 在推理任务上优于 Muon:Muon 强烈的记忆偏向在数据稀缺时会损害微调,验证了合成实验的结论。
- 激活正则化模式:AdamW 鼓励更平滑的激活分布,形成更平坦的损失曲面,使微调过程更易于导航且不会破坏预训练权重。
实际意义
- 简化微调流水线 – 团队可以去掉 LoRA 适配器或自定义优化器调度,直接复用预训练时的优化器,从而降低工程开销。
- 降低灾难性遗忘的风险 – 对于必须保留通用语言能力的应用至关重要(例如,在特定任务微调后仍能回答开放式查询的聊天机器人)。
- 优化器选择很重要 – 在使用 AdamW 进行预训练时,后续任务也应坚持使用 AdamW;如果预期在有限数据上微调,避免使用倾向记忆的优化器(例如 Muon)。
- 资源高效的开发 – 使用相同优化器进行全参数微调可以在预训练使用的同一硬件配置上运行,避免为适配层额外占用内存。
- 对开源模型发布的指导 – 模型提供者可以将优化器超参数与检查点一起发布,使下游用户能够开箱即用地复现一致性优势。
限制与未来工作
- 模型范围 – 实验聚焦于中等规模的 LLM;仍需在最新的数十亿参数模型上验证,因为优化器动态可能有所不同。
- 任务多样性 – 本研究涵盖分类和推理任务;其他领域(例如代码生成、多模态微调)需要单独验证。
- 超参数敏感性 – 虽然使用相同的优化器,但微调的最佳学习率和权重衰减仍可能不同;本文并未对该空间进行详尽探索。
- 理论假设 – 正则化分析假设激活统计平滑;高度稀疏或量化的模型可能违背这些假设。
- 未来方向 – 将分析扩展到优化器家族(如 RMSProp、Adafactor),探索保持一致性的自适应学习率调度,并将该洞察与参数高效方法(例如将 LoRA 与相同优化器微调相结合)结合,是有前景的方向。
作者
- Yuxing Liu
- Jianyu Wang
- Tong Zhang
论文信息
- arXiv ID: 2605.06654v1
- Categories: cs.LG, cs.AI, math.OC
- Published: 2026年5月7日
- PDF: Download PDF