[Paper] CLAD：一种聚类标签无关的联邦学习框架，用于联合异常检测和攻击分类

发布: 3天前 (2026年5月8日 GMT+8 01:01)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06571v1

概述

本文介绍了 CLAD，一种联邦学习框架，能够在异构的 IoT/IIoT 环境中同时检测异常并对攻击进行分类。通过将 clustered federated learning 与新颖的 dual‑mode micro‑architecture (DM²A) 结合，作者展示了如何将海量未标记的边缘数据转化为安全优势，同时保持通信和隐私成本低廉。

关键贡献

面向物联网异构性的聚类联邦学习 (CFL) – 动态将具有相似流量模式的设备分组，防止单一全局模型被拉向相反方向。
双模式微架构 (DM²A) – 采用共享编码器加两个头部（无监督异常检测器 + 监督攻击分类器），可在同一轮次中对有标签和无标签的客户端同时进行训练。
标签无关的训练流水线 – 系统从 80 % 没有真实标签的客户端中提取有用信号，显著降低昂贵的人工标注需求。
通信高效的设计 – 模型更新经过压缩，仅在集群内部交换，与传统联邦入侵检测系统基线相比，整体带宽使用量降低约 50 %。
广泛的实证验证 – 在真实物联网流量数据集上的实验表明，在标签极度稀缺的情况下，检测 F1‑score 相较于最强的已有方法提升约 30 %。

方法论

客户端聚类 – 在每一轮联邦学习之前，服务器对最近的流量特征统计（例如流大小、协议分布）进行轻量级相似性检查。统计数据相近的设备被放入同一个集群。每个集群维护自己的模型副本，从而避免来自不同设备的更新相互干扰。
DM²A 架构
- 共享编码器：若干卷积 / Transformer 块，用于学习原始数据包/流的紧凑表示。
- 异常检测头：使用重构导向的损失（如自编码器或对比损失）在所有客户端上进行训练，且不依赖标签。
- 攻击分类头：标准的交叉熵分类器，仅接受拥有标记攻击样本的客户端的梯度。
联合训练循环
- 每轮中，每个客户端计算编码器梯度以及相应的头部损失（标记客户端计算两个头部的损失，未标记客户端仅计算异常检测头的损失）。
- 服务器按集群使用 FedAvg 聚合更新，然后将更新后的模型广播回该集群的成员。
标签无关聚合 – 由于异常检测头始终存在，即使是完全未标记的设备也能贡献有用的梯度信息，使编码器保持良好的正则化，防止漂移。

Results & Findings

场景	标记客户端比例	检测 F1（基线）	检测 F1（CLAD）	通信成本（相对）
平衡流量，5 个簇	20 %	0.71	0.92 (+30 %)	0.5×
高度偏斜流量，8 个簇	10 %	0.64	0.84 (+31 %)	0.48×
真实 IoT 测试平台，80 % 未标记	20 %	0.68	0.88 (+30 %)	0.52×

对异质性的鲁棒性：在设备使用截然不同的协议（如 MQTT 与 Modbus）时，聚类避免了灾难性遗忘。
标签稀缺容忍度：即使只有 10 % 的客户端提供标签，性能下降也相对温和。
带宽节省：由于仅交换簇特定的模型增量，总上行流量约为单一 FL 方法的一半。

实际意义

可部署的边缘舰队入侵检测系统 – 运营商可以在数千个传感器、路由器和 PLC 上部署 CLAD，而无需标记每个设备的流量。
降低标注开销 – 安全团队可以将标注工作集中在少量具有代表性的设备子集上，让无监督的头部模型学习其余部分。
可扩展的隐私保护安全 – 联邦更新将原始数据包保留在设备上，满足 GDPR 类约束，同时仍受益于集体智能。
成本效益高的网络监控 – 通信量减半可降低远程或卫星链接 IoT 节点的数据计划费用。
适应新协议 – 当出现新设备类型时，聚类步骤会自动创建新的模型组，避免对单一模型进行昂贵的重新训练。

限制与未来工作

Cluster formation overhead – 相似度计算假设能够周期性访问轻量级流量统计；在超低功耗设备上，这仍可能并非微不足道。
Static clustering granularity – 当前方法在每轮固定聚类数量；动态的合并/拆分可能进一步提升适应性。
Evaluation on synthetic datasets – 虽然作者使用了真实的测试平台，但在公共 IoT IDS 基准（例如 TON_IoT、Edge‑IIoTset）上进行更广泛的验证将加强对通用性的主张。
Potential adversarial poisoning – 恶意客户端可能操纵聚类分配或梯度贡献；未来工作可以结合鲁棒聚合或拜占庭容错聚类。

总体而言，CLAD 提供了一个有说服力的蓝图，用于构建隐私保护、标签无关的入侵检测系统，以跟上 IoT 部署多样性快速增长的步伐。

作者

Iason Ofeidis
Nikos Papadis
Randeep Bhatia
Leandros Tassiulas
TV Lakshman

论文信息

arXiv ID: 2605.06571v1
类别: cs.LG, cs.CR, cs.DC, cs.NI
出版时间: 2026年5月7日
PDF: 下载 PDF

[Paper] CLAD：一种聚类标签无关的联邦学习框架，用于联合异常检测和攻击分类

概述

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择