[Paper] 大型语言模型中模型合并技术的系统研究
Source: arXiv
摘要
模型合并将多个微调检查点合并为单一模型,无需额外训练,提供了一种重新利用模型并高效提升性能的有吸引力的方法。然而,目前尚不清楚在较小模型和分类器上报告的优势是否能够推广到大型语言模型(LLM)。我们对六种最先进的合并方法(包括近期的子空间方法)进行大规模、系统性的评估,覆盖四个开源权重的 LLM、每个基模型的十二个微调检查点,以及十六个标准 LLM 基准。通过标准化基准进行评估,我们测量了合并模型优于基模型的概率以及相对于最佳单一检查点的相对增益。结果表明,最古老且最简单的方法——Task Arithmetic——是唯一能够在 LLM 上可靠产生性能提升的方法。其他考虑干扰的子空间合并方法通常会导致显著的性能下降。我们的发现表明,当前的合并技术并不能直接迁移到现代 LLM,这激励了针对 LLM 的专用合并算法以及合并感知的微调方法的设计。代码将在本文接受后发布。
主题
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)
引用
arXiv:2511.21437 (cs.CL)
DOI
https://doi.org/10.48550/arXiv.2511.21437
提交历史
v1 – Wed, 26 Nov 2025 14:28:11 UTC (2,098 KB)