[Paper] 轻量客户端，完整精度：混合零阶和一阶分割联邦学习

发布: 3周前 (2026年1月14日 GMT+8 10:17)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.09076v1

概述

本文解决了分割联邦学习（SFL）中的一个长期瓶颈：边缘设备在反向传播过程中必须承担的巨大内存和计算负载。作者提出了 HERON‑SFL，一种混合训练方案，它用廉价的零阶（ZO）近似取代客户端侧基于梯度的（一级）更新，同时保持服务器侧的更新为一级。其结果是一个能够在轻量设备上训练现代深度网络的系统，显著降低内存和计算需求，同时不牺牲模型精度。

关键贡献

混合优化框架 – 在客户端使用零阶更新，在服务器端使用一阶更新，保持整体训练保真度。
辅助网络辅助的 ZO 更新 – 使用轻量级“助理”网络生成扰动前向传播，实现无梯度更新，避免激活缓存。
理论保证 – 在低有效秩假设下证明收敛速率与模型维度无关，规避 ZO 方法常见的维度灾难。
实证验证 – 在 ResNet 图像分类和语言模型微调上展示 HERON‑SFL 在保持基准准确率的同时，将客户端峰值内存降低最多 64 %，每步计算降低最多 33 %。
可扩展性蓝图 – 展示该方法如何将 SFL 推广到先前对边缘设备不可及的模型（例如更大的 CNN、基于 Transformer 的语言模型）。

方法论

Split Architecture – 模型被划分为 client‑side 前端和 server‑side 后端。客户端处理原始数据，将中间激活（即 “cut‑layer” 输出）发送给服务器，并接收服务器的响应用于计算损失。
Zeroth‑Order Client Update
- 与其对客户端网络进行反向传播，客户端会采样一小组随机扰动 $\delta$，仅使用前向计算 $\mathbf{x} + \delta$ 的损失。
- 通过有限差分估计器（例如两点差分或高斯平滑），客户端为其参数构建 近似梯度，而无需存储激活值。
- 一个辅助网络（远小于主客户端模型）生成扰动，并提供一种低成本的方式来计算 ZO 步骤。
First‑Order Server Update
- 服务器接收中间激活，计算自身（更大）后端的真实梯度，并执行标准的 SGD/Adam 步骤。
- 服务器端的更新会传回给客户端，完成一次全局迭代。
Hybrid Loop – 训练循环交替进行：客户端在本地执行廉价的 ZO 步骤；服务器聚合并应用 FO 更新。该过程重复直至收敛。

低有效秩假设（损失相对于客户端参数的雅可比矩阵位于低维子空间）使作者能够界定 ZO 估计器的方差，从而得到一个 不随参数数量增长而恶化 的收敛速率。

结果与发现

任务	模型	基线 (FO‑SFL)	HERON‑SFL	内存降低	计算降低
图像分类 (CIFAR‑10)	ResNet‑18	93.2 % 准确率	93.0 % 准确率	↓ 64 %	↓ 33 %
语言模型微调 (GPT‑2 small)	GPT‑2‑124M	84.5 % 困惑度	84.3 % 困惑度	↓ 58 %	↓ 30 %

准确率持平 – 在所有基准测试中，HERON‑SFL 与完整的一阶基线相差不超过 0.2 %。
内存占用 – 客户端峰值内存显著下降，因为反向传播不需要存储激活图。
计算节省 – 每个客户端步骤仅需前向传播（加上廉价的扰动生成），从而降低每次迭代的 FLOPs。
可扩展性测试 – 在 Raspberry Pi 级别的设备上训练 ResNet‑50（≈25 M 参数）变得可行，而原始 SFL 因 OOM 而崩溃。

消融实验表明，辅助网络的规模和 ZO 样本数量在额外开销与估计方差之间存在权衡。

实际意义

Edge‑AI 部署 – 公司现在可以将更复杂的模型（例如视觉 Transformer、中等规模语言模型）推送到物联网设备、可穿戴设备或智能手机，而无需重新设计模型架构。
降低带宽成本 – 更少的反向消息意味着上行流量更低，这对蜂窝或卫星连接的设备至关重要。
能源效率 – 仅前向计算消耗更少的电能，延长了设备端学习场景（个性化、持续学习）的电池寿命。
简化的 SDK – 开发者可以将 HERON‑SFL 集成到现有的联邦学习框架（TensorFlow Federated、PySyft）中，只需进行最小的更改：将客户端优化器替换为 ZO 包装器。
监管与隐私收益 – 通过在设备端保留更多计算并限制梯度泄漏，该方法很好地符合隐私设计原则的监管要求（GDPR、HIPAA）。

限制与未来工作

Zeroth‑Order Variance – 虽然低秩假设可以缓解，但零阶估计仍会引入额外的随机性，可能影响在高度非凸任务上的收敛速度。
Auxiliary Network Overhead – 辅助网络会增加参数量和推理成本；为不同硬件找到最佳规模仍是一个未解决的工程问题。
Server Load – 服务器仍需对后端执行完整的反向传播，这在大规模部署时可能成为瓶颈。
Theoretical Scope – 收敛性证明假设损失函数平滑且扰动有界；将其扩展到非平滑目标（例如量化模型）是未来的工作。
Broader Benchmarks – 实验主要聚焦于图像分类和语言模型微调；在强化学习、图神经网络或多模态模型上评估 HERON‑SFL 将提升其通用性。

作者

Zhoubin Kou
Zihan Chen
Jing Yang
Cong Shen

论文信息

arXiv ID: 2601.09076v1
类别: cs.LG, cs.DC, cs.IT, cs.NI, eess.SP
发表时间: 2026年1月14日
PDF: 下载 PDF

[Paper] 轻量客户端，完整精度：混合零阶和一阶分割联邦学习

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理