[论文] 优化器-模型一致性：使用与预训练相同的优化器进行全微调可减少遗忘

发布: 3天前 (2026年5月8日 GMT+8 01:57)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06654v1

请提供您希望翻译的正文内容，我将为您翻译成简体中文，并保留原始的链接和格式。

概述

作者们研究了一个出人意料地简单却强大的想法：在微调大型语言模型（LLM）时，继续使用预训练时使用的完全相同的优化器。他们的实验表明，这种“优化器‑模型一致性”能够显著降低灾难性遗忘，同时仍能达到（甚至超越）传统微调流程的性能——后者通常会更换优化器或依赖 LoRA 等参数高效技巧。

受控微调实验 – 作者使用多个公开可得的 LLM 检查点（例如 GPT‑2‑like 模型），在下游任务（分类、推理等）上进行微调，使用不同的优化器：原始的预训练优化器（AdamW 或 Muon）与不匹配的优化器以及 LoRA。
遗忘度量 – 微调后，他们在保留的“预训练”测试集（例如语言模型困惑度）上评估模型，以量化丢失了多少知识，同时报告下游任务的表现。
激活正则化分析 – 通过在预训练期间跟踪激活统计量（范数、方差），他们描述每个优化器的隐式正则化效果。
理论建模 – 他们将优化器的正则化形式化为损失中的惩罚项，并推导出在何种条件下微调梯度与预训练损失曲面对齐，从而最小化遗忘。
合成记忆基准 – 构建一个玩具语言建模数据集，在该数据集上可以直接衡量记忆与模式学习的区别，从而对 Muon 与 AdamW 进行清晰的比较。

实验	预训练使用的优化器	微调使用的优化器	下游任务得分	遗忘（预训练 LM 损失）
标准 SFT（AdamW）	AdamW	AdamW（相同）	↑↑（基线）	小幅增加（遗忘低）
不匹配的优化器	AdamW	AdamW → SGD	相同/略低	更大幅增加（遗忘更多）
LoRA（AdamW 预训练）	AdamW	LoRA（AdamW）	可比	明显遗忘
Muon 预训练，AdamW 微调	Muon	AdamW	↓（更差）	高遗忘
Muon 预训练，Muon 微调	Muon	Muon（相同）	略好于不匹配	仍高于 AdamW‑AdamW 的遗忘

简化微调流水线 – 团队可以去掉 LoRA 适配器或自定义优化器调度，直接复用预训练时的优化器，从而降低工程开销。
降低灾难性遗忘的风险 – 对于必须保留通用语言能力的应用至关重要（例如，在特定任务微调后仍能回答开放式查询的聊天机器人）。
优化器选择很重要 – 在使用 AdamW 进行预训练时，后续任务也应坚持使用 AdamW；如果预期在有限数据上微调，避免使用倾向记忆的优化器（例如 Muon）。
资源高效的开发 – 使用相同优化器进行全参数微调可以在预训练使用的同一硬件配置上运行，避免为适配层额外占用内存。
对开源模型发布的指导 – 模型提供者可以将优化器超参数与检查点一起发布，使下游用户能够开箱即用地复现一致性优势。

模型范围 – 实验聚焦于中等规模的 LLM；仍需在最新的数十亿参数模型上验证，因为优化器动态可能有所不同。
任务多样性 – 本研究涵盖分类和推理任务；其他领域（例如代码生成、多模态微调）需要单独验证。
超参数敏感性 – 虽然使用相同的优化器，但微调的最佳学习率和权重衰减仍可能不同；本文并未对该空间进行详尽探索。
理论假设 – 正则化分析假设激活统计平滑；高度稀疏或量化的模型可能违背这些假设。
未来方向 – 将分析扩展到优化器家族（如 RMSProp、Adafactor），探索保持一致性的自适应学习率调度，并将该洞察与参数高效方法（例如将 LoRA 与相同优化器微调相结合）结合，是有前景的方向。