[Paper] 基于多智能体强化学习的群体网络协同抗干扰弹性

发布: (2025年12月19日 GMT+8 01:54)
8 min read
原文: arXiv

Source: arXiv - 2512.16813v1

概述

本文针对自主机器人群体面临的紧迫问题——反应式干扰器,它们能够感知网络活动并有选择地干扰通信,破坏编队协同和任务目标。作者通过将抗干扰问题框定为**多智能体强化学习(MARL)**任务,展示了群体如何学习在协同方式下选择频率和发射功率,以始终领先于自适应干扰器。

关键贡献

  • MARL‑based anti‑jamming framework:提出一种去中心化但协同的学习方案,采用 QMIX 算法,学习可分解为各个智能体的联合动作价值函数。
  • Realistic jammer model:构建了具有 Markovian threshold dynamics 的反应式干扰器模型,该模型感知整体功率并决定何时/何地进行干扰,贴近实际对抗行为。
  • Comprehensive benchmarking:将 QMIX 与 genie‑aided optimal policylocal Upper Confidence Bound (UCB) 多臂赌博机方法以及 stateless reactive policy 进行对比评估,涵盖无复用和通道复用的衰落场景。
  • Performance close to optimal:实验证明 QMIX 能快速收敛到的策略,使 throughput 接近 genie‑aided 上限,仅差几个百分点,同时显著降低成功干扰事件的发生。
  • Scalable to larger swarms:展示了因价值函数可分解,能够实现 decentralized execution,使该方法在拥有大量智能体且计算资源受限的群体中仍具可行性。

方法论

  1. 系统模型

    • 一个群体由多个 发射机‑接收机对 组成,共享一组频率信道。
    • 每个智能体在每个时间步 联合决定 (信道, 功率)
    • 反应式干扰器 监测总接收功率;如果超过隐藏阈值,它将在下一个时隙对干扰最严重的信道进行干扰(马尔可夫动态)。
  2. 学习形式化

    • 将问题建模为 合作式 Dec‑POMDP:智能体共享一个公共奖励(例如,成功的数据包传输、低干扰)。
    • QMIX 学习一个 集中式动作价值函数 Q_tot,该函数对每个智能体的局部 Q 值是单调的,从而使得全局最优可以通过每个智能体对自身 Q 函数的贪婪行为来实现。
  3. 训练流程

    • 通过仿真回合生成状态‑动作‑奖励三元组。
    • 经验回放缓冲区存储转移,用于离策略更新。
    • 网络结构为每个智能体使用 循环编码器(处理部分可观测性),并配备 混合网络 来强制单调性约束。
  4. 基准对照

    • 天才辅助最优:对所有联合动作进行穷举搜索(仅在小规模网络中可行)。
    • 局部 UCB:每个智能体将每个 (信道, 功率) 对视为一个臂,通过上置信界(Upper Confidence Bound)进行选择。
    • 无状态反应式:一种启发式方法,在检测到干扰时切换信道,且不进行学习。

结果与发现

指标QMIXGenie‑aided optimalLocal UCBStateless reactive
吞吐量(包/时隙)0.92 × 最优1.000.68 × 最优0.55 × 最优
干扰成功率8 %0 %31 %44 %
收敛时间≈ 2 k 轮不适用(离线)> 10 k 轮不适用(基于规则)
  • 快速收敛:QMIX 在几千个训练轮次内实现 > 90 % 的最优吞吐量,远快于 UCB 基线。
  • 对衰落和信道复用的鲁棒性:即使在真实衰落条件下多个智能体共享同一信道,QMIX 仍保持明显优势,能够自适应功率水平以减轻干扰。
  • 可扩展性:对多达 12 个智能体的实验仅出现轻微性能下降,验证了因子化价值函数在处理更大规模群体时不会出现指数级增长。

实际影响

  • Secure swarm deployments: 开发 UAV、地面机器人或物联网群体的人员可以嵌入轻量级的 QMIX 派生策略,以自主规避干扰,无需中心控制器。
  • Dynamic spectrum access: 联合信道‑功率选择可重新用于民用频谱共享场景(例如拥挤 ISM 频段中的工业物联网),在这些场景中干扰是不可预测的。
  • Edge‑friendly inference: 训练完成后,每个智能体仅运行一个小型前馈网络来评估其本地 Q 值,符合典型嵌入式计算预算(例如 ARM Cortex‑M 或低功耗 GPU)。
  • Rapid adaptation: 由于策略离线学习、在线执行,群体可以针对一系列干扰器行为进行预训练,然后在现场使用最少数据进行微调,实现 continuous resilience

限制与未来工作

  • 训练开销:当前方法依赖大量的模拟回合;转移到真实硬件可能需要领域随机化或模拟到真实的技术。
  • 假设共享奖励:合作奖励结构假设所有智能体目标一致;未来工作可以探索 混合合作/竞争 场景(例如,异构任务)。
  • 静态干扰器模型:干扰器遵循马尔可夫阈值规则;更复杂的对手(如学习型干扰器)仍是一个未解决的挑战。
  • 超过数十个智能体的可扩展性:虽然因式分解有帮助,但极大规模的群体可能需要层次化 MARL 或通信高效的近似方法。

总体而言,本文展示了现代 MARL——尤其是 QMIX——能够为自主群体提供一种实用的、数据驱动的防御,以抵御自适应干扰,为更稳健的现场部署打开了大门。

作者

  • Bahman Abolhassani
  • Tugba Erpek
  • Kemal Davaslioglu
  • Yalin E. Sagduyu
  • Sastry Kompella

论文信息

  • arXiv ID: 2512.16813v1
  • Categories: cs.NI, cs.AI, cs.DC, cs.LG, eess.SP
  • Published: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »