[Paper] 脉冲神经网络的三因素延迟学习规则

发布: (2026年1月2日 GMT+8 20:28)
7 min read
原文: arXiv

Source: arXiv - 2601.00668v1

概述

本文提出了一种通过学习突触权重和脉冲时延来训练脉冲神经网络(SNNs)的新方法。采用在线三因子学习规则,作者在时间任务上实现了显著的精度提升,同时大幅缩小模型规模并降低推理延迟——使得 SNNs 在低功耗、实时神经形态硬件上更具吸引力。

关键贡献

  • Delay‑augmented LIF neurons – 将经典的泄漏积分‑发放(LIF)模型扩展为可学习的突触和轴突延迟,适用于前馈和循环结构。
  • Three‑factor online learning rule – 将局部计算的可及性迹(通过平滑的高斯近似脉冲导数)与自上而下的误差信号相结合,实现权重和延迟的实时更新。
  • Empirical gains – 在仅学习权重的基线基础上提升最高 20 % 的准确率,在权重 + 延迟联合学习且参数预算相当的情况下提升最高 14 %
  • Competitive performance on SHD – 在 Speech Heidelberg Digits (SHD) 基准上匹配离线反向传播的结果,同时将模型规模缩小 6.6×,推理延迟降低 67 %(相较于最先进方法仅下降 2.4 % 的准确率)。
  • Hardware‑friendly design – 表明在设备端进行延迟的在线学习可以降低内存占用和功耗,这对神经形态处理器是关键需求。

方法论

  1. 神经元模型 – 基于标准的 LIF 神经元,并添加两个延迟参数:

    • 突触延迟 – 预突触脉冲发放到达后突触膜的时间。
    • 轴突延迟 – 膜电位跨阈值后脉冲发放前的额外延迟。
  2. 资格迹(Eligibility trace) – 每个突触维护一个资格迹,用于捕捉过去脉冲如何影响当前膜电位。该迹使用 高斯代理梯度 计算,以平滑原本不可微分的脉冲函数。

  3. 三因子更新 – 参数更新遵循经典的三因子规则:

    • 因子 1 – 预突触活动(脉冲)。
    • 因子 2 – 资格迹(局部、随时间变化的敏感度)。
    • 因子 3 – 全局误差信号(例如,期望输出与实际输出之间的差异)。

    这三个项的乘积产生权重或延迟的增量,使网络能够实时适应 两者:突触强度和时序。

  4. 训练方案 – 实验在基于事件的数据集(包括 SHD)上使用 在线随机梯度下降 进行;不需要离线的时间反向传播,从而保持低内存使用。

结果与发现

数据集基线(仅权重)+学习延迟联合权重 + 延迟离线 BPTT(最先进)
SHD(语音)71.2 %84.5 %(+13.3 %)86.9 %(+15.7 %)89.3 %(≈高出 2.4 %)
其他时间基准58 % → 68 %68 % → 78 %78 % → 84 %
  • 模型规模:延迟增强网络在 ≈15 % 参数 的情况下实现相同或更高的准确率,媲美 BPTT 训练的 SNN。
  • 延迟:由于延迟直接在前向传播中学习,推理速度比离线训练的模型 快约 67 %
  • 稳定性:三因子规则在前馈和循环拓扑中均保持稳定,表明延迟学习能够扩展到更复杂的动力学。

实际意义

  • Neuromorphic chips – 减少内存和计算需求直接转化为更小的硅面积和功耗,使 edge devices(如可穿戴设备、物联网传感器)能够在本地运行复杂的时间模式识别器。
  • On‑device continual learning – 由于学习规则是在线的,设备可以在不将数据上传至云端的情况下,适应新的声音特征、传感器漂移或用户特定模式。
  • Temporal data processing语音指令识别、事件相机视觉和生物信号分类 等应用可以受益于学习到的时延所提供的更高时间精度。
  • Simplified software stacks – 该方法避免了时间反向传播(back‑propagation‑through‑time),意味着现有的脉冲神经网络框架(如 BindsNET、Norse、SpykeTorch)只需做最小的改动即可实现该规则,加速了技术的推广。

限制与未来工作

  • Surrogate gradient dependence – Gaussian 代理函数是手动调节的;其形状可能影响收敛速度和最终精度,这表明需要系统地探索代理函数族。
  • Scalability to large‑scale vision tasks – 实验主要聚焦于时序/音频基准;将延迟学习扩展到高分辨率事件相机数据集仍是一个未解的挑战。
  • Hardware validation – 虽然论文报告了理论上的延迟和尺寸提升,但需要在实际硅实现(例如 Loihi 或定制 ASIC)上进行完整验证,以确认真实世界的能耗节省。
  • Delay range constraints – 物理硬件对延迟的细粒度表示施加了限制;未来工作应研究量化效应以及面向硬件的延迟编码方法。

Bottom line: 通过教会脉冲网络 何时 发放脉冲,而不仅是 多强 发放脉冲,Vassallo 和 Taherinejad 为实现紧凑、低延迟、持续学习的神经形态系统开辟了实用路径——这对构建下一代边缘 AI 的开发者而言是一个令人振奋的进展。

作者

  • Luke Vassallo
  • Nima Taherinejad

论文信息

  • arXiv ID: 2601.00668v1
  • 分类: cs.NE, cs.LG
  • 发表时间: 2026年1月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »