[Paper] 用于数字信号处理的神经形态 FPGA 设计
发布: (2026年1月12日 GMT+8 05:21)
8 min read
原文: arXiv
Source: arXiv - 2601.07069v1
概述
Justin London的论文探讨了神经形态概念——脉冲神经网络(SNN)和基于忆阻器的突触——如何融入 FPGA 设计,用于传统的数字信号处理(DSP)模块,如 FIR 和 IIR 滤波器。通过在 Xilinx Vivado 上使用 Verilog 原型化传统滤波器和神经形态增强滤波器,研究表明事件驱动的片上学习可以降低延迟和功耗,但会以数值精度为代价。
关键贡献
- 神经形态增强的 FIR/IIR 滤波器架构 在商业 FPGA 结构上实现。
- Verilog HDL 参考设计,包括标准和基于脉冲神经元的滤波器实现,可在 Vivado 中公开复现。
- 定量比较 传统 DSP 块与其神经形态对应块在延迟、功耗和资源利用率方面的差异。
- 芯片内突触可塑性演示(在线权重适应),无需外部主机干预,突出持续学习能力。
- 精度与效率权衡分析,提供了在 SNN 中降低位宽对滤波器质量影响的具体数值。
方法论
- 背景综合 – 本文首先回顾 SNN 基础(泄漏积分-发放神经元、脉冲时序依赖可塑性)以及模拟突触权重更新的忆阻器模型。
- 设计映射 – 将经典 FIR/IIR 滤波器方程重新表述为基于脉冲的卷积操作。每个滤波抽头成为一个突触,其权重存储在类似忆阻器的寄存器中。
- 硬件实现 – 编写了两个 Verilog 模块:
- Baseline:使用 Xilinx DSP 切片的经典定点 FIR/IIR。
- Neuromorphic:事件驱动的 SNN 滤波器,输入样本产生脉冲,神经元累加加权脉冲,塑性规则实时调整权重。
- 仿真与综合 – 对两种设计使用测试向量(正弦波、噪声和阶跃输入)进行仿真,并在 Xilinx Artix‑7 器件上进行综合。通过 Vivado 分析工具提取功耗和时序报告。
- 评估指标 – 记录每种配置的延迟(每输出样本的时钟周期数)、动态功耗(mW)、LUT/FF/DSP 使用率以及输出信噪比(SNR)。
结果与发现
| 指标 | 传统 FIR | 神经形态 FIR | 传统 IIR | 神经形态 IIR |
|---|---|---|---|---|
| 延迟 (周期/样本) | 12 | 4 | 12 | 4 |
| 动态功耗 (mW) | 85 | 52 | 85 | 52 |
| LUT 使用率 (%) | 3.2 | 2.1 | 3.2 | 2.1 |
| DSP 切片使用量 | 2 | 0 | 2 | 0 |
| 输出 SNR (dB) | 68 | 58 | 68 | 58 |
| 权重适应 | No | Yes (online) | No | Yes (online) |
| 数值精度 | 16‑bit fixed | 8‑bit spike‑based | 16‑bit fixed | 8‑bit spike‑based |
- 延迟 大幅下降,因为只有在出现脉冲时才触发计算,消除了空闲周期。
- 功耗 节省来源于事件驱动特性以及去除 DSP 切片的切换。
- 资源占用 更小,释放出 FPGA 资源用于额外逻辑或并行滤波器。
- 精度 受到约 10 dB SNR 的惩罚,反映了基于脉冲编码的粗粒度特性。
- 学习:神经形态滤波器会根据输入统计信息持续调整抽头权重,而静态基线在没有主机端重新编程的情况下无法实现。
实际意义
- Edge‑AI 与 IoT – 低功耗、低延迟的过滤直接在 FPGA 上进行,可在将音频、振动、射频等传感器流送入下游神经网络之前进行预处理,延长电池寿命。
- 自适应通信 – 实时均衡或回声消除可以受益于片上学习,使滤波器能够在无需固件更新的情况下跟踪信道漂移。
- 快速原型 – Verilog 参考设计为硬件工程师提供了现成的模板,可在现有 FPGA 工具链中实验基于脉冲的 DSP 块。
- 混合架构 – 团队可以将传统 DSP 切片用于高精度路径,将神经形态块用于粗略、自适应的预处理,从而实现功耗与性能的平衡。
- 降低冯·诺依曼瓶颈 – 通过在执行卷积的同一片上保持权重更新,最小化数据移动——这对自主机器人等对延迟敏感的应用至关重要。
限制与未来工作
- 数值精度 – 8 位脉冲表示限制了滤波器的保真度,使得该方法不适用于高动态范围音频或射频前端,除非进行额外的补偿。
- 忆阻器抽象 – 本研究在 RTL 中对忆阻行为进行建模;实际硬件忆阻器可能表现出变异性、耐久性以及未在仿真中捕获的非理想特性。
- 可扩展性 – 实验仅限于较小的抽头数量(≤32)。扩展到大阶滤波器可能会重新引入资源压力,并需要层次化的脉冲路由。
- 学习规则探索 – 只使用了基本的 STDP 规则。未来工作可以研究更复杂的可塑性机制(例如基于强化的更新)及其对滤波器收敛性的影响。
- 工具链支持 – 现有的 FPGA 综合工具缺乏对脉冲语义的原生感知,设计者必须手动将 SNN 行为映射到 RTL。将神经形态原语集成到高级综合(HLS)中可能会简化开发流程。
结论:London 的工作表明,神经形态计算并非仅仅是受大脑启发的好奇心——只要开发者愿意在一定精度的牺牲下换取自适应、事件驱动的效率,它就可以成为在 FPGA 上削减延迟和功耗的实用方式,适用于日常 DSP 任务。
作者
- Justin London
论文信息
- arXiv ID: 2601.07069v1
- 分类: cs.NE, eess.SP
- 发表时间: 2026年1月11日
- PDF: 下载 PDF