[Paper] SI-ChainFL：Shapley激励的安全联邦学习用于高速铁路数据共享

发布: 2天前 (2026年3月9日 GMT+8 13:57)

9 分钟阅读

原文: arXiv

Source: arXiv - 2603.07992v1

概述

本文介绍了 SI‑ChainFL，一种为高速铁路（HSR）运营商设计的联邦学习（FL）框架，帮助他们在不暴露原始传感器数据的情况下共享交通流量洞察。通过将 基于Shapley值的贡献激励 与 区块链驱动的去中心化聚合 相结合，作者解决了 FL 的两个长期痛点：（1）搭便车和模型投毒攻击；（2）中心聚合器的单点故障风险。

关键贡献

Contribution‑aware incentive model：使用多维Shapley值（稀有事件效用、数据多样性、质量和时效性）公平奖励参与者。
Rare‑positive driven client clustering：一种轻量级的预聚类步骤，显著降低Shapley估计的组合成本，同时保持准确性。
Blockchain‑based consensus for aggregation：去中心化的全局模型合并，仅有足够Shapley分数的客户端才能提议/验证区块，消除中心服务器。
Robustness against poisoning：在针对性模型投毒（PA）攻击中，展示了对高达 90 % 恶意客户端 的韧性。
Real‑world validation：在标准视觉基准（MNIST、CIFAR‑10/100）和专有HSR流数据集上进行实验，显示相较于最先进的RAGA方案 提升 14.12 % 的准确率。
Theoretical guarantee：提供了去中心化聚合和Shapley近似所导致的性能损失的上界。

方法论

量化贡献
- 每个客户端的更新通过 Shapley 值 进行评估，聚合四个因素：
  1. 稀有事件效用 – 更新在低频（但安全关键）铁路事件上的预测提升程度。
  2. 数据多样性 – 相较于整体联邦，客户端特征分布的独特性。
  3. 数据质量 – 信噪比和标注正确性。
  4. 时效性 – 从数据采集到模型提交的延迟。
- 精确计算 Shapley 值是 NP 难问题，因此作者首先基于 “稀有正向” 信号（即提升稀有事件指标的更新）对客户端进行聚类。在每个聚类内部，使用 Monte‑Carlo 采样近似 Shapley 贡献，实际运行时间可减少约 70 %。
激励关联的区块链聚合
- 许可链（例如 Hyperledger Fabric）承载联邦学习过程。
- 资格规则：只有 Shapley 分数超过动态阈值的客户端才能提议包含其本地模型更新的新区块。
- 共识：轻量级拜占庭容错（BFT）协议（PBFT 风格）验证区块，确保至少有多数诚实且高贡献的节点对聚合模型达成一致。
- 全局模型通过 加权平均 计算，权重与已验证的 Shapley 分数成比例，保证高质量贡献在最终模型中占主导。
安全性与攻击模型
- 该框架假设 部分对手控制（最高可达 90 % 的参与者），可能发起 模型投毒（PA）攻击 或尝试搭便车。
- 通过将区块创建权与 Shapley 激励绑定，提交低质量或有害更新的恶意节点会自动被排除在共识过程之外。

结果与发现

数据集	基线 (RAGA)	SI‑ChainFL	准确率 Δ	备注
MNIST	96.3 %	98.7 %	+2.4 %	对 80 % 恶意客户端具有鲁棒性
CIFAR‑10	71.2 %	78.5 %	+7.3 %	提升来源于多样性感知加权
CIFAR‑100	45.1 %	53.0 %	+7.9 %	稀有事件效用提升尾部类别准确率
HSR Flow (real)	82.4 %	96.5 %	+14.12 %	90 % PA 攻击容忍度，更快收敛（≈30 % 轮次减少）

计算开销：聚类加速的 Shapley 估计在典型边缘设备（ARM Cortex‑A53）上每轮约增加 ~0.15 s，较本地训练时间可忽略不计。
网络开销：区块链块大小保持在 200 KB 以下（模型差分 + 元数据），在 5G/铁路专用私有 LTE 链路中能够轻松容纳。
安全性：BFT 共识可容忍至多 f = ⌊(n‑1)/3⌋ 的拜占庭节点；当 n = 20 名参与者时，即使有 6 个节点为恶意，系统仍保持安全，激励过滤进一步降低了有效 f 的值。

Practical Implications

针对铁路运营商：实现跨公司或跨部门的流量预测，而无需暴露专有的传感器日志，从而提升时刻表优化和安全预警的效果。
针对构建联邦学习流水线的开发者：提供一种具体的 公平激励机制（基于 Shapley）的实现方案，可直接嵌入现有的联邦学习库（如 TensorFlow Federated、PySyft）。
边缘设备部署：轻量级的聚类步骤和适度的区块链负载使该方法能够在受限的车载计算平台上运行（例如 Raspberry Pi 级别的控制器）。
安全即设计：通过将区块创建权作为贡献所得的特权，使系统自然抑制搭便车行为，并降低模型投毒攻击面——这对参与方可能仅半可信的任何联邦场景（智慧城市物联网、协同汽车车队）都非常有用。
监管合规：去中心化的聚合方式规避了单一数据托管方的需求，符合交通运输领域日益兴起的数据主权法规。

限制与未来工作

Shapley approximation bias：虽然聚类加快了计算，但 Monte‑Carlo 估计仍可能偏离精确的 Shapley 值，尤其是在客户端数据分布高度偏斜时。
Permissioned blockchain assumption：当前设计依赖于已知的参与者集合；若扩展到完全开放、无许可的环境，则需要额外的 Sybil 抗性机制。
Scalability to hundreds of clients：实验最多只到 20 个参与者；更大的联邦可能需要层次聚类或区块链分片。
Dynamic incentive thresholds：论文使用静态阈值决定区块资格；基于系统负载或攻击强度的自适应阈值可能进一步提升鲁棒性。

未来的研究方向包括将 differential privacy 与 Shapley 激励相结合以保护单个数据贡献，探索用于多运营商铁路网络的 cross‑chain interoperability，以及在 real‑time streaming data（例如现场传感器数据）上评估该框架，以检验延迟保证。

作者

Mingjie Zhao
Cheng Dai
Fei Chen
Xin Chen
Kaoru Ota
Mianxiong Dong
Bing Guo

论文信息

arXiv ID: 2603.07992v1
分类: cs.DC
发布时间: 2026年3月9日
PDF: 下载 PDF

[Paper] SI-ChainFL：Shapley激励的安全联邦学习用于高速铁路数据共享

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 速度的官僚主义：内存一致性模型与多代理授权撤销之间的结构等价

[Paper] 异构随机场在有限格子上的 Rate-Distortion 界限

[Paper] Randomized Distributed Function Computation (RDFC)：超高效语义通信在隐私中的应用

[Paper] PIM-SHERPA：通过解决 PIM 内存属性和布局不一致性实现设备端 LLM 推理的软件方法