[Paper] 弹性混合的按秩专家用于联邦微调中的知识复用

发布: 5天前 (2025年11月30日 GMT+8 22:09)

7 min read

原文: arXiv

Source: arXiv - 2512.00902v1

概览

联邦微调让组织能够在不将数据迁出设备的情况下，将大规模语言模型适配到自己的数据上，但该过程在计算、内存和网络带宽方面的开销极大。本文提出了 SmartFed 框架，通过复用已在低秩适配器（LoRA）中捕获的知识，并动态选择每个训练步骤中最有用的 “专家” 组件，从而降低这些成本。

SmartFed 框架 – 一个资源感知的联邦微调流水线，避免为每个新下游任务从头训练 LoRA 适配器。
混合秩级专家 (Mixture of Rank‑Wise Experts, MoRE) – 对 LoRA 矩阵进行细粒度的秩级专家分解，可根据输入语义和设备资源预算打开或关闭。
弹性专家配额分配 (Elastic Expert Quota Allocation, EEQA) – 自适应调度器，在秩级专家之间分配有限的参数配额，为对性能贡献最大的专家分配更多容量。
全面的实证评估 – 在多个标准联邦 NLP 基准上的实验表明，SmartFed 在提升准确率的同时，较以往的联邦微调基线显著降低了训练时间和通信量。

LoRA 知识池 – 当客户端完成任务的微调后，其 LoRA 适配器（低秩权重更新）被存入共享池中，而不是被丢弃。
秩级专家分解 – 每个 LoRA 矩阵被拆分为一组秩级专家（例如第一秩、第二秩……）。这些专家是轻量的线性变换，可在推理或训练时混合使用。
语义门控 – 对于给定的输入 token 序列，轻量门控网络预测应激活的专家子集，使模型在不加载完整适配器的情况下实现专门化。
弹性配额分配 (EEQA) – 在每轮联邦训练中，EEQA 通过验证代理衡量每个专家的边际增益，并相应重新分配有限的 “配额” 秩，确保关键专家获得更多计算资源，而不太有用的专家被裁剪。
联邦优化循环 – 客户端下载当前的专家混合体，在本地私有数据上执行少量 SGD 步骤，仅返回激活专家的更新。服务器聚合这些稀疏更新，更新专家池并重复上述过程。

整个流水线旨在保持每个客户端的内存占用低（仅几个秩级矩阵），并通过稀疏专家更新而非完整 LoRA 向量，显著减少网络传输数据量。

边缘设备部署 – 开发者现在可以在智能手机、物联网网关或本地服务器上微调 LLM，而不会受到内存或带宽的限制。
快速多任务适配 – 需要为众多内部工具（如聊天机器人、文档摘要）定制同一基础模型的企业，可复用已学习的 LoRA 专家，显著缩短价值实现时间。
成本效益的联邦学习服务 – 云服务提供商可以将联邦微调作为托管服务提供，计算费用更低，因为 EEQA 将资源集中在最具影响力的参数上。
隐私优先的 AI 流程 – 通过在设备上保留原始数据，仅传输稀疏专家更新，SmartFed 符合 GDPR 等数据最小化要求，同时仍能交付最先进的模型性能。