[Paper] 参数高效微调 LLMs 的空间专家混合

发布: (2026年2月16日 GMT+8 14:07)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.14490v1

概述

本文介绍了 Mixture of Space (MoS),一种新颖的参数高效微调(PEFT)框架,使大型语言模型(LLMs)能够在多个几何流形(例如欧几里得、双曲面、球面)上同时表示数据。通过将流行的 LoRA 技术扩展为 MoSLoRA,作者赋予 LLMs 为每个 token 或上下文选择最合适几何结构的能力,从而在数学密集型和推理基准上显著提升性能。

关键贡献

  • 统一多流形 PEFT:提出一种空间混合架构,在单个微调层中结合欧几里得、双曲和球面专家。
  • MoSLoRA:在低秩适配(LoRA)的基础上加入异构几何专家,保持 LoRA 的低参数预算,同时提升对曲率的感知表达能力。
  • 轻量路由机制:引入计算成本低的选择器,根据给定输入决定激活哪些几何专家,避免昂贵的全流形切换。
  • 曲率优化洞察:提供关于学习曲率参数如何影响训练稳定性和下游准确性的实证分析。
  • 显著的实证提升:展示相较于最先进的 PEFT 基线的一致性提升,例如在 MATH500 上提升 +5.6 %,在 MAWPS 上提升 +15.9 %,且不增加可训练参数数量。

方法论

  1. 几何专家 – 每个专家是一个低秩适配器(如 LoRA),位于特定流形上:

    • 欧几里得:标准线性变换。
    • 双曲:使用庞加莱球模型捕获层次关系。
    • 球面:将数据嵌入单位球面以建模循环或周期模式。
  2. 混合层 – 对每个 token,模型通过一个小型 MLP 计算软路由向量,为三个专家分配权重。最终的适配是专家输出的加权和,使模型在需要时能够混合几何结构。

  3. 参数效率 – 仅低秩矩阵和路由网络是可训练的;基础 LLM 权重保持冻结,使可训练参数总量与普通 LoRA 相当(≈0.1 % 的完整模型)。

  4. 训练流程

    • 初始化曲率参数(例如双曲半径),并与适配器一起学习。
    • 在下游任务上使用标准交叉熵损失;曲率更新需正则化以避免数值不稳定。
  5. 实现技巧

    • 使用重新参数化将欧几里得梯度映射到非欧几里得流形的切空间。
    • 缓存流形特定操作,以降低推理时的开销。

结果与发现

BenchmarkBaseline (LoRA)MoSLoRARelative Gain
MATH50071.2 %76.8 %+5.6 %
MAWPS42.3 %58.2 %+15.9 %
SST‑294.1 %94.5 %+0.4 %
WikiSQL84.7 %86.1 %+1.4 %
  • 在分类、推理和检索增强任务上均表现出一致的提升。
  • 训练稳定性在曲率参数正则化后得到改善;路由网络在与普通 LoRA 相同的 epoch 数内收敛。
  • 参数预算基本保持不变(约占模型总参数的 0.12 %)。

实际意义

  • 即插即用微调:开发者可以在现有流水线(例如 Hugging Face peft 库)中用 MoSLoRA 替换标准 LoRA 适配器,而无需重新训练整个模型。
  • 更好地处理层次化数据:知识图谱补全、分类层级、代码库导航等应用可受益于双曲专家捕捉树形结构的能力。
  • 提升数学/逻辑任务的推理能力:球面专家有助于建模循环模式(如周期函数),而混合专家能够实现单一空间适配器无法捕获的细致推理。
  • 低推理开销:路由网络每个 token 只增加几微秒,使 MoSLoRA 适用于对延迟敏感的服务(聊天机器人、代码助手)。
  • 面向未来:随着新流形(如乘积流形)研究的深入,可将其作为额外专家加入,而无需重新设计整个 PEFT 框架。

Limitations & Future Work

  • Manifold selection limited to three spaces; more exotic geometries might further boost performance but increase routing complexity.
  • Curvature learning can be unstable on very deep adapters; the paper suggests stronger regularization or curriculum learning as possible fixes.
  • Benchmarks focus on English tasks; cross‑lingual or multimodal scenarios remain unexplored.
  • Routing interpretability: While the soft weights indicate which geometry is used, deeper analysis of why certain inputs prefer a given manifold is left for future research.

作者

  • Buze Zhang
  • Jinkai Tao
  • Zilang Zeng
  • Neil He
  • Ali Maatouk
  • Menglin Yang
  • Rex Ying

论文信息

  • arXiv ID: 2602.14490v1
  • 分类: cs.LG, cs.AI, cs.CL, cs.NE
  • 出版日期: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »