[Paper] 用于数字信号处理的神经形态 FPGA 设计

发布: (2026年1月12日 GMT+8 05:21)
8 min read
原文: arXiv

Source: arXiv - 2601.07069v1

概述

Justin London的论文探讨了神经形态概念——脉冲神经网络(SNN)和基于忆阻器的突触——如何融入 FPGA 设计,用于传统的数字信号处理(DSP)模块,如 FIR 和 IIR 滤波器。通过在 Xilinx Vivado 上使用 Verilog 原型化传统滤波器和神经形态增强滤波器,研究表明事件驱动的片上学习可以降低延迟和功耗,但会以数值精度为代价。

关键贡献

  • 神经形态增强的 FIR/IIR 滤波器架构 在商业 FPGA 结构上实现。
  • Verilog HDL 参考设计,包括标准和基于脉冲神经元的滤波器实现,可在 Vivado 中公开复现。
  • 定量比较 传统 DSP 块与其神经形态对应块在延迟、功耗和资源利用率方面的差异。
  • 芯片内突触可塑性演示(在线权重适应),无需外部主机干预,突出持续学习能力。
  • 精度与效率权衡分析,提供了在 SNN 中降低位宽对滤波器质量影响的具体数值。

方法论

  1. 背景综合 – 本文首先回顾 SNN 基础(泄漏积分-发放神经元、脉冲时序依赖可塑性)以及模拟突触权重更新的忆阻器模型。
  2. 设计映射 – 将经典 FIR/IIR 滤波器方程重新表述为基于脉冲的卷积操作。每个滤波抽头成为一个突触,其权重存储在类似忆阻器的寄存器中。
  3. 硬件实现 – 编写了两个 Verilog 模块:
    • Baseline:使用 Xilinx DSP 切片的经典定点 FIR/IIR。
    • Neuromorphic:事件驱动的 SNN 滤波器,输入样本产生脉冲,神经元累加加权脉冲,塑性规则实时调整权重。
  4. 仿真与综合 – 对两种设计使用测试向量(正弦波、噪声和阶跃输入)进行仿真,并在 Xilinx Artix‑7 器件上进行综合。通过 Vivado 分析工具提取功耗和时序报告。
  5. 评估指标 – 记录每种配置的延迟(每输出样本的时钟周期数)、动态功耗(mW)、LUT/FF/DSP 使用率以及输出信噪比(SNR)。

结果与发现

指标传统 FIR神经形态 FIR传统 IIR神经形态 IIR
延迟 (周期/样本)124124
动态功耗 (mW)85528552
LUT 使用率 (%)3.22.13.22.1
DSP 切片使用量2020
输出 SNR (dB)68586858
权重适应NoYes (online)NoYes (online)
数值精度16‑bit fixed8‑bit spike‑based16‑bit fixed8‑bit spike‑based
  • 延迟 大幅下降,因为只有在出现脉冲时才触发计算,消除了空闲周期。
  • 功耗 节省来源于事件驱动特性以及去除 DSP 切片的切换。
  • 资源占用 更小,释放出 FPGA 资源用于额外逻辑或并行滤波器。
  • 精度 受到约 10 dB SNR 的惩罚,反映了基于脉冲编码的粗粒度特性。
  • 学习:神经形态滤波器会根据输入统计信息持续调整抽头权重,而静态基线在没有主机端重新编程的情况下无法实现。

实际意义

  • Edge‑AI 与 IoT – 低功耗、低延迟的过滤直接在 FPGA 上进行,可在将音频、振动、射频等传感器流送入下游神经网络之前进行预处理,延长电池寿命。
  • 自适应通信 – 实时均衡或回声消除可以受益于片上学习,使滤波器能够在无需固件更新的情况下跟踪信道漂移。
  • 快速原型 – Verilog 参考设计为硬件工程师提供了现成的模板,可在现有 FPGA 工具链中实验基于脉冲的 DSP 块。
  • 混合架构 – 团队可以将传统 DSP 切片用于高精度路径,将神经形态块用于粗略、自适应的预处理,从而实现功耗与性能的平衡。
  • 降低冯·诺依曼瓶颈 – 通过在执行卷积的同一片上保持权重更新,最小化数据移动——这对自主机器人等对延迟敏感的应用至关重要。

限制与未来工作

  • 数值精度 – 8 位脉冲表示限制了滤波器的保真度,使得该方法不适用于高动态范围音频或射频前端,除非进行额外的补偿。
  • 忆阻器抽象 – 本研究在 RTL 中对忆阻行为进行建模;实际硬件忆阻器可能表现出变异性、耐久性以及未在仿真中捕获的非理想特性。
  • 可扩展性 – 实验仅限于较小的抽头数量(≤32)。扩展到大阶滤波器可能会重新引入资源压力,并需要层次化的脉冲路由。
  • 学习规则探索 – 只使用了基本的 STDP 规则。未来工作可以研究更复杂的可塑性机制(例如基于强化的更新)及其对滤波器收敛性的影响。
  • 工具链支持 – 现有的 FPGA 综合工具缺乏对脉冲语义的原生感知,设计者必须手动将 SNN 行为映射到 RTL。将神经形态原语集成到高级综合(HLS)中可能会简化开发流程。

结论:London 的工作表明,神经形态计算并非仅仅是受大脑启发的好奇心——只要开发者愿意在一定精度的牺牲下换取自适应、事件驱动的效率,它就可以成为在 FPGA 上削减延迟和功耗的实用方式,适用于日常 DSP 任务。

作者

  • Justin London

论文信息

  • arXiv ID: 2601.07069v1
  • 分类: cs.NE, eess.SP
  • 发表时间: 2026年1月11日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »