[Paper] CLAD:一种聚类标签无关的联邦学习框架,用于联合异常检测和攻击分类

发布: (2026年5月8日 GMT+8 01:01)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.06571v1

概述

本文介绍了 CLAD,一种联邦学习框架,能够在异构的 IoT/IIoT 环境中同时检测异常并对攻击进行分类。通过将 clustered federated learning 与新颖的 dual‑mode micro‑architecture (DM²A) 结合,作者展示了如何将海量未标记的边缘数据转化为安全优势,同时保持通信和隐私成本低廉。

关键贡献

  • 面向物联网异构性的聚类联邦学习 (CFL) – 动态将具有相似流量模式的设备分组,防止单一全局模型被拉向相反方向。
  • 双模式微架构 (DM²A) – 采用共享编码器加两个头部(无监督异常检测器 + 监督攻击分类器),可在同一轮次中对有标签和无标签的客户端同时进行训练。
  • 标签无关的训练流水线 – 系统从 80 % 没有真实标签的客户端中提取有用信号,显著降低昂贵的人工标注需求。
  • 通信高效的设计 – 模型更新经过压缩,仅在集群内部交换,与传统联邦入侵检测系统基线相比,整体带宽使用量降低约 50 %。
  • 广泛的实证验证 – 在真实物联网流量数据集上的实验表明,在标签极度稀缺的情况下,检测 F1‑score 相较于最强的已有方法提升约 30 %。

方法论

  1. 客户端聚类 – 在每一轮联邦学习之前,服务器对最近的流量特征统计(例如流大小、协议分布)进行轻量级相似性检查。统计数据相近的设备被放入同一个 集群。每个集群维护自己的模型副本,从而避免来自不同设备的更新相互干扰。
  2. DM²A 架构
    • 共享编码器:若干卷积 / Transformer 块,用于学习原始数据包/流的紧凑表示。
    • 异常检测头:使用重构导向的损失(如自编码器或对比损失)在 所有 客户端上进行训练,且不依赖标签。
    • 攻击分类头:标准的交叉熵分类器,仅接受拥有标记攻击样本的客户端的梯度。
  3. 联合训练循环
    • 每轮中,每个客户端计算编码器梯度以及相应的头部损失(标记客户端计算两个头部的损失,未标记客户端仅计算异常检测头的损失)。
    • 服务器按 集群 使用 FedAvg 聚合更新,然后将更新后的模型广播回该集群的成员。
  4. 标签无关聚合 – 由于异常检测头始终存在,即使是完全未标记的设备也能贡献有用的梯度信息,使编码器保持良好的正则化,防止漂移。

Results & Findings

场景标记客户端比例检测 F1(基线)检测 F1(CLAD)通信成本(相对)
平衡流量,5 个簇20 %0.710.92 (+30 %)0.5×
高度偏斜流量,8 个簇10 %0.640.84 (+31 %)0.48×
真实 IoT 测试平台,80 % 未标记20 %0.680.88 (+30 %)0.52×
  • 对异质性的鲁棒性:在设备使用截然不同的协议(如 MQTT 与 Modbus)时,聚类避免了灾难性遗忘。
  • 标签稀缺容忍度:即使只有 10 % 的客户端提供标签,性能下降也相对温和。
  • 带宽节省:由于仅交换簇特定的模型增量,总上行流量约为单一 FL 方法的一半。

实际意义

  • 可部署的边缘舰队入侵检测系统 – 运营商可以在数千个传感器、路由器和 PLC 上部署 CLAD,而无需标记每个设备的流量。
  • 降低标注开销 – 安全团队可以将标注工作集中在少量具有代表性的设备子集上,让无监督的头部模型学习其余部分。
  • 可扩展的隐私保护安全 – 联邦更新将原始数据包保留在设备上,满足 GDPR 类约束,同时仍受益于集体智能。
  • 成本效益高的网络监控 – 通信量减半可降低远程或卫星链接 IoT 节点的数据计划费用。
  • 适应新协议 – 当出现新设备类型时,聚类步骤会自动创建新的模型组,避免对单一模型进行昂贵的重新训练。

限制与未来工作

  • Cluster formation overhead – 相似度计算假设能够周期性访问轻量级流量统计;在超低功耗设备上,这仍可能并非微不足道。
  • Static clustering granularity – 当前方法在每轮固定聚类数量;动态的合并/拆分可能进一步提升适应性。
  • Evaluation on synthetic datasets – 虽然作者使用了真实的测试平台,但在公共 IoT IDS 基准(例如 TON_IoT、Edge‑IIoTset)上进行更广泛的验证将加强对通用性的主张。
  • Potential adversarial poisoning – 恶意客户端可能操纵聚类分配或梯度贡献;未来工作可以结合鲁棒聚合或拜占庭容错聚类。

总体而言,CLAD 提供了一个有说服力的蓝图,用于构建隐私保护、标签无关的入侵检测系统,以跟上 IoT 部署多样性快速增长的步伐。

作者

  • Iason Ofeidis
  • Nikos Papadis
  • Randeep Bhatia
  • Leandros Tassiulas
  • TV Lakshman

论文信息

  • arXiv ID: 2605.06571v1
  • 类别: cs.LG, cs.CR, cs.DC, cs.NI
  • 出版时间: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »