[Paper] 弹性分组转发：一种基于强化学习的在高斯互连网络中处理聚类故障的路由方法

发布: 1个月前 (2025年12月23日 GMT+8 22:31)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20394v1

概述

本文介绍了一种容错感知路由算法，利用强化学习（RL）在 Gaussian Interconnected Networks (GINs) 中保持数据包的持续传输——这是一类由高斯整数构建的拓扑结构，具有低直径和高度对称性。通过训练近端策略优化（PPO）代理，使其避开节点以聚集的、高斯分布模式（例如热热点）失效的区域，作者展示了相较于传统的贪婪自适应路由器，数据包传输可靠性显著提升。

关键贡献

RL‑驱动的 GIN 路由: 首个将基于 PPO 的智能体应用于高斯网络特定算术拓扑的工作。
故障邻近奖励设计: 一种自定义奖励函数，惩罚接近故障节点的路径，鼓励智能体学习“安全走廊”。
全面评估: 在不同故障密度（最高 40 %）和流量负载（20 %–80 %）范围内，与贪婪自适应最短路径算法进行实证比较。
高弹性: 在 40 % 故障密度下实现 0.95 的分组投递率（PDR），而基线为 0.66。
拥塞感知: 在低负载条件下表现出更佳性能（PDR 0.57 对比 0.43），表明智能体能够在避免故障与负载分配之间取得平衡。

方法论

网络模型: 作者们构建了一个二维高斯互连网络，其中每个节点的地址是高斯整数（a + bi）。当节点地址相差一个单位高斯整数时就存在链接，从而形成一个规则且高度对称的网格。
故障注入: 故障以符合高斯空间分布的簇状方式引入，模拟真实的热点失效。故障密度在节点/链接的 10 % 到 40 % 之间变化。
RL 表述:
- 状态: 当前节点、目标节点，以及已知故障邻居的二进制映射（通过周期性心跳消息学习得到）。
- 动作: 在最多八个相邻节点中选择下一跳。
- 奖励: 成功投递 +1，进入故障邻居 –0.5，每跳 –0.1（鼓励短路径），以及因丢包导致的巨大惩罚 –5。
训练: 使用 PPO 代理在模拟流量模式下离线训练。策略网络是一个浅层前馈模型（2 个隐藏层，每层 128 个单元），可在 NoC 路由器中以适度的 SRAM 实现。
基线: 一个确定性的贪婪自适应路由算法，始终选择能够减小到目标的曼哈顿距离的邻居，并在可能的情况下避免已知的故障链接。

结果与发现

指标	RL‑PPO 路由器	贪婪自适应
在 40 % 故障密度下的 PDR	0.95	0.66
在 20 % 流量负载下的 PDR	0.57	0.43
平均跳数（低负载）	比最优高 1.8 %（由于绕行）	高出 2.5 %
收敛时间（训练）	约 200 万次迭代（≈ 单 GPU 30 min）	N/A

关键要点

RL 代理学会 规避故障簇，且不会牺牲过多额外跳数，保持时延。
在 高故障密度 下，策略保持稳定，而贪婪方法会迅速陷入死路。
即使在 轻负载 情况下，RL 路由器也能更均匀地分配数据包，降低在确定性方案中常见的争用热点。

实际意义

网络芯片（NoC）设计师 可以在路由器微代码中嵌入轻量级的强化学习策略，以实现自愈路由，而无需重新设计物理拓扑。
部署在恶劣环境（工业厂房、灾区）的 无线传感器网络（WSN） 可以受益于节点上的学习代理，实时适应传感器故障。
故障邻近奖励 概念具有可移植性：任何类似网格的拓扑结构（例如环形、六边形）都可以采用类似的强化学习公式来提升韧性。
由于策略网络体积小，面积和功耗开销 极低——这对每平方毫米都很关键的硅级实现尤为重要。
该方法为 在线持续学习 打开了大门，路由器可以定期使用最新的故障数据进行再训练，实现真正的自主故障恢复。

限制与未来工作

训练是离线的： 本研究假设使用预训练模型；芯片上在线训练将需要额外的计算资源并需确保稳定性保证。
可扩展到大规模 NoC： 实验仅限于中等规模网络（≤ 64 × 64 节点）。在更大规模的芯片上扩展状态表示并确保快速推理仍是未解挑战。
故障检测延迟： 该方法假设能够及时获知故障邻居；检测延迟可能导致性能下降。
安全性考虑： 攻击者可能篡改故障报告以误导强化学习策略——作者建议进一步研究此议题。
未来工作包括针对多层 NoC 的 层次强化学习、跨不同拓扑的 迁移学习，以及 硬件加速推理，以进一步降低延迟和功耗。

作者

Mohammad Walid Charrwi
Zaid Hussain

论文信息

arXiv ID: 2512.20394v1
分类: cs.DC
出版时间: 2025年12月23日
PDF: 下载 PDF

[Paper] 弹性分组转发：一种基于强化学习的在高斯互连网络中处理聚类故障的路由方法

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 可适应云架构首届研讨会论文集

[Paper] FUSCO：通过变换-通信融合实现高性能分布式数据洗牌

在异构网络和不可靠连接下的鲁棒联邦微调：聚合视角

[Paper] BLEST：极其高效的 BFS 使用 Tensor Cores