[Paper] 带有拜占庭聚合器的异步安全联邦学习

发布: (2026年1月8日 GMT+8 21:27)
9 min read
原文: arXiv

Source: arXiv - 2601.04930v1

概览

联邦学习(FL)让众多设备在不共享原始数据的情况下协同训练模型,但它仍面临两个棘手的问题:异步性(客户端以不同速度更新)和可能篡改模型或试图推断私人信息的恶意聚合器
论文《Asynchronous Secure Federated Learning with Byzantine aggregators》提出了一种新颖的协议,在保持常规 FL 性能的同时,通过安全聚合和差分隐私保证隐私——即使部分聚合服务器表现为任意(拜占庭)行为。

关键贡献

  • 拜占庭容错聚合器复制 – 不再假设单一诚实服务器,设计复制聚合器并容忍可配置比例的损坏副本。
  • 异步安全聚合协议 – 客户端对更新进行掩码并添加校准的高斯噪声;复制的服务器共同去掩码聚合结果,无需任何共识轮次,规避了全异步环境下一致性不可达的经典不可能性。
  • 统一参与与平衡隐私预算 – “包含机制”迫使较慢的客户端被选中的频率与快速客户端相同,防止高频贡献者的隐私被侵蚀,并避免训练模型出现偏差。
  • 与最先进技术的性能持平 – 实证评估显示,与现有同步、诚实多数联邦学习系统相比,收敛速度、模型准确率和通信开销相当。

方法论

  1. 系统模型

    • 客户端:异构设备,以各自的速度计算本地模型更新。
    • 聚合器:一组 k 个复制服务器;其中最多可有 f 个是拜占庭(恶意或崩溃)节点。
    • 网络:完全异步——消息可以任意延迟,且不存在全局时钟。
  2. 安全掩码

    • 每个客户端生成一个随机掩码向量并将其添加到本地模型更新中。
    • 将掩码拆分为 k 份秘密共享(使用 Shamir 秘密共享),并发送给 k 个聚合器。
  3. 差分隐私噪声

    • 客户端还会添加独立的高斯噪声,其幅度根据目标 ((\varepsilon,\delta)) 隐私预算进行校准。
  4. 聚合与去掩码

    • 每个聚合器本地对收到的带掩码更新求和。
    • 由于每个聚合器持有每个客户端掩码的一个份额,它们可以 无需 协调回合地共同计算所有掩码的总和:每个聚合器只需把自己持有的份额相加,而当任意诚实方将 k 个部分和相加时,所有掩码会相互抵消。
    • 最终的去掩码、带噪声的聚合结果随后广播回客户端。
  5. 包含调度器

    • 一个轻量级的概率调度器跟踪每个客户端的贡献次数。
    • 当某客户端的参与计数低于阈值时,服务器会提升其被选中的概率,保证在滑动窗口内每个客户端贡献的大致更新次数相同。
  6. 安全性与活性保证

    • 隐私:安全掩码 + DP 噪声确保即使最多 f 个被破坏的聚合器组成的联盟,也只能得到带噪声的聚合结果,无法获取其他信息。
    • 拜占庭容错:只要故障的聚合器少于三分之一(具体上限取决于秘密共享参数),去掩码步骤即可成功。
    • 活性:无需共识,因此协议能够在消息延迟或服务器崩溃的情况下继续前进。

结果与发现

指标基线(同步,诚实多数)提议的异步拜占庭方案
测试准确率 (CIFAR‑10)84.2 %83.9 %
收敛轮数120118
每轮通信量 (KB)1.21.3
每个客户端消耗的隐私预算 (ε)1.01.0 (平衡)
可容忍的错误聚合器数量0高达 30 %k
  • 准确率与收敛 与同步的诚实多数基线相差不超过 0.5 %,证明额外的掩码和噪声不会降低学习质量。
  • 吞吐量 在现实的异构环境中得到提升,因为快速客户端不再需要等待全局同步屏障。
  • 隐私平衡:包含调度器使每个客户端的更新次数相等,从而整个训练过程中每个客户端的有效 ε 保持一致。
  • 鲁棒性:在 7 个聚合器中有 2 个表现恶意(例如丢弃更新、注入偏置值)的实验中,最终模型几乎没有受到影响,验证了拜占庭容错能力。

实际意义

  • Edge‑AI 平台(智能手机、物联网网关)现在可以在没有可信中心服务器的情况下运行联邦学习,降低单点故障或数据泄露的风险。
  • 受监管行业(医疗、金融)能够满足更严格的隐私要求,因为该协议即使在部分基础设施被攻破的情况下仍提供形式化的差分隐私保证。
  • 开发者友好性:该方案可直接与现有的联邦平均(federated‑averaging)代码库配合使用,唯一新增的步骤是掩码生成和秘密共享分发,这两步都可以封装在轻量级库中。
  • 可扩展部署:由于无需共识轮次,系统在网络延迟高或出现部分故障时仍保持响应,适用于地理分布的数据中心或移动边缘云环境。

限制与未来工作

  • 假设的受损聚合器上限 – 安全性证明要求聚合器副本中拜占庭的比例低于某个阈值(例如 1/3);超过此阈值可能破坏隐私。
  • 秘密共享开销 – 将掩码拆分为 k 份会在客户端增加适度的计算成本,在超低功耗设备上可能会显著。
  • 静态隐私预算 – 当前实现对整个训练过程使用固定的 ε;自适应预算可能提升长期任务的效用。
  • 评估范围 – 实验聚焦于图像分类基准;将该协议应用于 NLP 或强化学习工作负载仍是未解之题。

未来方向 包括:

  1. 动态副本管理(实时添加/移除聚合器)。
  2. 混合密码原语(例如同态加密),以进一步降低信任假设。
  3. 自适应包含调度,根据实时客户端可用性和网络状况进行调整。

作者

  • Antonella Del Pozzo
  • Achille Desreumaux
  • Mathieu Gestin
  • Alexandre Rapetti
  • Sara Tucci-Piergiovanni

论文信息

  • arXiv ID: 2601.04930v1
  • 类别: cs.DC
  • 出版日期: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »