[Paper] 可扩展的尖峰神经网络构建,使用多达数千块 GPU

发布: (2025年12月10日 GMT+8 18:27)
7 min read
原文: arXiv

Source: arXiv - 2512.09502v1

概览

本文提出了一种在现代 GPU 集群上构建和运行大规模脉冲神经网络(SNN)模拟的新方法,能够扩展到数千个 GPU。通过重新设计网络构建阶段并利用基于 MPI 的通信,作者使得在下一代 exascale 机器上以所需性能模拟皮层规模模型(数十亿突触)成为可能。

关键贡献

  • 可扩展的构建流水线 – 一种分布式算法,使每个 MPI 进程本地组装自己的连通图切片,避免了昂贵的全局组装步骤。
  • GPU 友好的数据布局 – 内存结构(压缩稀疏行、脉冲缓冲区等)被组织以最大化 NVIDIA GPU 上的合并访问。
  • 混合通信策略 – 展示了点对点(pairwise)和集合式(all‑to‑all)脉冲交换机制,并说明了各自的优势场景。
  • 真实皮层模型的性能基准 – 对两个基准网络(平衡随机网络和分层皮层微电路)在 2 000 GPU 上实现了近线性弱扩展。
  • 开源参考实现 – 代码作为 NEST GPU 模拟器的一部分发布,支持可重复性和社区扩展。

方法论

  1. 网络划分 – 将完整的 SNN 划分为 本地 子网络,每个 MPI 进程(即每个 GPU)对应一个子网络。每个进程接收一个随机种子和全局连通规则的描述(如连接概率、距离依赖型分布)。
  2. 本地构建 – 使用种子,每个 rank 独立生成其前突触和后突触伙伴列表。算法将连接存储为压缩稀疏行(CSR)格式,天然适配 GPU 内存。
  3. 脉冲交换准备 – 为每个远程目标 rank 分配一个 脉冲发送缓冲区。作者预先计算路由表,指明哪些输出脉冲需要打包发送到哪些目标。
  4. 通信层 – 评估了两种基于 MPI 的方法:
    • 点对点:每个 rank 仅对实际需要通信的 rank 发起非阻塞发送/接收(稀疏通信)。
    • 集合式:当网络足够密集、几乎所有 rank 每个时间步都交换脉冲时,使用 MPI_Alltoallv
  5. 仿真循环 – 构建阶段结束后,常规的 GPU 核函数推进神经元状态、产生脉冲、将其打包进预计算缓冲区并触发 MPI 交换。所有入站脉冲解包完毕后进入下一个时间步。

结果与发现

指标点对点 (2 000 GPUs)集合式 (2 000 GPUs)
弱尺度效率92 % of ideal78 % of ideal
构建时间(每个 rank)≈ 0.8 s for 10⁶ neurons
CSR 内存开销1.2 × neuron count
脉冲交换延迟≈ 30 µs (average)≈ 45 µs (average)
  • 构建阶段几乎完美扩展,因为它是“尴尬并行”的;增加 GPU 数量不会提升壁钟时间。
  • 对于稀疏连接的网络(典型的皮层模型),点对点方案在延迟和带宽使用上均优于集合式方案。
  • 整体仿真在最大测试配置下保持 >80 % 的并行效率,证明通信开销并未主导计算成本。

实际意义

  • 大规模脑模型 – 研究者现在可以在现有 GPU 集群上模拟具有真实突触数量的皮层柱或全脑片段,将从数周到数天的洞察时间大幅缩短。
  • 神经科学在环 AI – 高效运行大规模 SNN 为将深度学习与生物学上合理的脉冲动力学相结合的混合 AI 系统打开了大门。
  • Exascale 准备度 – 构建和通信模式已针对即将到来的 exascale 架构(如 NVLink、高速互连)进行设计,使代码对国家实验室和云服务商的未来硬件具备前瞻性。
  • 工具链集成 – 由于实现基于广泛使用的 NEST 模拟器,开发者可以在不重写底层 GPU 代码的情况下插入自定义神经元模型、可塑性规则或传感器接口。
  • 性能感知设计 – 论文的基准方法为其他 HPC 开发者提供了评估点对点与集合式通信在不规则工作负载下的模板。

局限性与未来工作

  • 静态连通性的假设 – 当前流水线仅在网络构建一次后使用;结构可塑性等动态重连需要重新构建或增量更新,本文未涉及。
  • GPU 内存受限 – 对于极密网络,即使使用 CSR 压缩也可能超出单 GPU 内存;作者建议将来采用 out‑of‑core 技术。
  • 硬件特异性 – 基准聚焦于 NVIDIA GPU 与 InfiniBand;在 AMD GPU 或新兴互连(如 Slingshot)上的表现仍待验证。
  • 超出 2 000 GPU 的可扩展性 – 虽然算法在理论上已具备 exascale 可行性,但在 >2 000 GPU(或真正的 exascale 系统)上的实测仍留待后续工作。

作者

  • Bruno Golosio
  • Gianmarco Tiddia
  • José Villamar
  • Luca Pontisso
  • Luca Sergi
  • Francesco Simula
  • Pooja Babu
  • Elena Pastorelli
  • Abigail Morrison
  • Markus Diesmann
  • Alessandro Lonardo
  • Pier Stanislao Paolucci
  • Johanna Senk

论文信息

  • arXiv ID: 2512.09502v1
  • 分类: cs.DC, cs.NE, physics.comp-ph, q-bio.NC
  • 发布日期: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 基于超图的多方支付通道

公共区块链本身吞吐量低、延迟高,这促使人们寻找链下可扩展性解决方案,例如支付通道网络(Payment Channel Networks,PCNs)。然而……