[Paper] 算法-硬件协同设计的双记忆通路神经形态网络

发布: 1周前 (2025年12月8日 GMT+8 22:50)

7 min read

原文: arXiv

Source: arXiv - 2512.07602v1

概览

本文解决了神经形态工程中的一个长期瓶颈：如何在保持脉冲神经网络（SNN）能效和内存轻量的同时，仍能在长时间范围内记忆上下文。通过将算法（双记忆通路网络）与定制的近存储计算基底共同设计，作者展示了一个在长序列任务上匹配或超越最先进精度的系统，同时大幅削减参数、延迟和功耗。

关键贡献

双记忆通路（DMP）架构 – 为每层引入一个慢速、低维的记忆向量，用于聚合近期脉冲活动，模拟大脑的快‑慢皮层组织。
参数高效学习 – DMP 网络在长序列基准上实现竞争性精度，比可比的 SNN 少 40‑60 % 参数。
近存储计算硬件 – 一种异构加速器，将紧凑的 DMP 状态保存在芯片上，实现稀疏脉冲处理与密集记忆更新的紧耦合。
性能提升 – 实验硅片结果显示 >4× 更高吞吐量 和 >5× 更佳能效，相较于现有最佳神经形态实现。
算法‑硬件协同设计方法论 – 展示了如何将生物启发的抽象转化为可扩展的具体硬件原语。

方法论

算法层面
- 每个网络层包含两条通路：
  - 快速通路： 传统的脉冲神经元，产生稀疏的二进制事件。
  - 慢速通路： 一个小的连续值向量（“慢记忆”），通过轻量线性递归在每个时间步更新。
- 慢记忆调制脉冲阈值和突触权重，提供一个跨越大量脉冲的上下文窗口，而无需网络在内存中保存长脉冲序列。
- 训练采用代理梯度反向传播，并加入额外正则项，鼓励慢记忆保持低维。
硬件层面
- 加速器围绕 近存储计算结构 构建：慢记忆向量存放在靠近计算单元的本地 SRAM 块中，消除昂贵的片外流量。
- 稀疏脉冲引擎 以事件驱动方式处理二进制事件，密集计算引擎 使用简单的矩阵‑向量运算更新慢记忆。
- 定制的数据流调度器动态将脉冲路由至相应计算通道，并将调制结果合回脉冲生成回路，保持系统的事件驱动特性。
协同设计循环
- DMP 的低维状态大小被调优以匹配硬件块的 SRAM 容量，确保每层的内存占用仅为几千字节。
- 在环路中进行仿真‑在‑循环验证，确保算法精度不受硬件量化和时序约束的影响。

结果与发现

指标	DMP + 近存储硬件	先前 SNN 硬件（最先进）
参数量 (M)	0.8‑1.2（≈ 50 % 减少）	1.5‑2.5
Top‑1 精度（长序列）	92.3 %（例如 DVS‑Gesture）	90.8 %
吞吐量 (M events/s)	提高 4.2×	–
能耗 / 推理 (µJ)	降低 5.3×	–
延迟 (ms)	< 5 ms（对应 1 s 视频）	20‑30 ms

DMP 网络保持 高稀疏性（≈ 2 % 活跃脉冲），但凭借慢记忆仍能捕获长程依赖。
在 28 nm 原型芯片上的硬件测量证实了理论增益：近存储布局将 DRAM 访问削减 > 90 %，混合稀疏/密集流水线保持计算单元忙碌，消除纯脉冲加速器常见的停顿。

实际意义

边缘 AI 设备（可穿戴、无人机、物联网摄像头）现在可以在 亚毫焦耳 预算下运行复杂的事件驱动感知模型，显著延长电池寿命。
实时学习 在芯片上变得可行：慢记忆可在线更新，无需移动大规模脉冲缓冲区，为机器人或自动驾驶提供自适应滤波器。
协同设计模板（算法 → 紧凑状态 → 近存储加速器）可复用于其他神经形态工作负载，如语音处理或触觉感知，长时间上下文同样关键。
开发者可以通过 高级 API（例如类 PyTorch 前端）访问加速器，抽象稀疏/密集调度，降低软件工程师的入门门槛。

局限性与未来工作

当前硬件原型仅支持 固定大小的慢记忆向量；在更深网络中可能需要层次化记忆分块。
训练仍依赖 离线代理梯度反向传播；将片上学习规则（如 STDP）集成进来仍是未解难题。
基准主要聚焦于视觉事件数据集；在 音频或多模态流 上评估 DMP 方法将拓宽其适用范围。
作者指出 量化效应 在慢记忆上于亚 8 位精度时更为显著，暗示未来硅代需要混合精度策略。

作者

Pengfei Sun
Zhe Su
Jascha Achterberg
Giacomo Indiveri
Dan F. M. Goodman
Danyal Akarca

论文信息

arXiv ID: 2512.07602v1
分类: cs.NE
发表时间: 2025 年 12 月 8 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] DiffusionBrowser：通过多分支解码器实现交互式 Diffusion 预览

视频扩散模型已经彻底改变了生成视频合成，但它们不够精确、速度慢，并且在生成过程中可能不透明——让用户处于……

[Paper] LitePT：更轻更强的 Point Transformer

现代用于3D点云处理的神经架构同时包含卷积层和attention块，但如何最佳组合它们仍未明确……

[Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

视觉分词器（例如 VAEs）中的潜在空间质量对现代生成模型至关重要。然而，标准的基于重构的训练……

[Paper] 超越表层形式：一种用于从自发言语中检测阿尔茨海默病的语义分析管道

阿尔茨海默病（AD）是一种进行性的神经退行性疾病，对认知能力产生不利影响。语言相关的变化可以自动……