[Paper] 用于数字信号处理的神经形态 FPGA 设计

发布: 1周前 (2026年1月12日 GMT+8 05:21)

8 min read

原文: arXiv

Source: arXiv - 2601.07069v1

概述

Justin London的论文探讨了神经形态概念——脉冲神经网络（SNN）和基于忆阻器的突触——如何融入 FPGA 设计，用于传统的数字信号处理（DSP）模块，如 FIR 和 IIR 滤波器。通过在 Xilinx Vivado 上使用 Verilog 原型化传统滤波器和神经形态增强滤波器，研究表明事件驱动的片上学习可以降低延迟和功耗，但会以数值精度为代价。

关键贡献

神经形态增强的 FIR/IIR 滤波器架构 在商业 FPGA 结构上实现。
Verilog HDL 参考设计，包括标准和基于脉冲神经元的滤波器实现，可在 Vivado 中公开复现。
定量比较 传统 DSP 块与其神经形态对应块在延迟、功耗和资源利用率方面的差异。
芯片内突触可塑性演示（在线权重适应），无需外部主机干预，突出持续学习能力。
精度与效率权衡分析，提供了在 SNN 中降低位宽对滤波器质量影响的具体数值。

方法论

背景综合 – 本文首先回顾 SNN 基础（泄漏积分-发放神经元、脉冲时序依赖可塑性）以及模拟突触权重更新的忆阻器模型。
设计映射 – 将经典 FIR/IIR 滤波器方程重新表述为基于脉冲的卷积操作。每个滤波抽头成为一个突触，其权重存储在类似忆阻器的寄存器中。
硬件实现 – 编写了两个 Verilog 模块：
- Baseline：使用 Xilinx DSP 切片的经典定点 FIR/IIR。
- Neuromorphic：事件驱动的 SNN 滤波器，输入样本产生脉冲，神经元累加加权脉冲，塑性规则实时调整权重。
仿真与综合 – 对两种设计使用测试向量（正弦波、噪声和阶跃输入）进行仿真，并在 Xilinx Artix‑7 器件上进行综合。通过 Vivado 分析工具提取功耗和时序报告。
评估指标 – 记录每种配置的延迟（每输出样本的时钟周期数）、动态功耗（mW）、LUT/FF/DSP 使用率以及输出信噪比（SNR）。

结果与发现

指标	传统 FIR	神经形态 FIR	传统 IIR	神经形态 IIR
延迟 (周期/样本)	12	4	12	4
动态功耗 (mW)	85	52	85	52
LUT 使用率 (%)	3.2	2.1	3.2	2.1
DSP 切片使用量	2	0	2	0
输出 SNR (dB)	68	58	68	58
权重适应	No	Yes (online)	No	Yes (online)
数值精度	16‑bit fixed	8‑bit spike‑based	16‑bit fixed	8‑bit spike‑based

延迟大幅下降，因为只有在出现脉冲时才触发计算，消除了空闲周期。
功耗节省来源于事件驱动特性以及去除 DSP 切片的切换。
资源占用 更小，释放出 FPGA 资源用于额外逻辑或并行滤波器。
精度受到约 10 dB SNR 的惩罚，反映了基于脉冲编码的粗粒度特性。
学习：神经形态滤波器会根据输入统计信息持续调整抽头权重，而静态基线在没有主机端重新编程的情况下无法实现。

实际意义

Edge‑AI 与 IoT – 低功耗、低延迟的过滤直接在 FPGA 上进行，可在将音频、振动、射频等传感器流送入下游神经网络之前进行预处理，延长电池寿命。
自适应通信 – 实时均衡或回声消除可以受益于片上学习，使滤波器能够在无需固件更新的情况下跟踪信道漂移。
快速原型 – Verilog 参考设计为硬件工程师提供了现成的模板，可在现有 FPGA 工具链中实验基于脉冲的 DSP 块。
混合架构 – 团队可以将传统 DSP 切片用于高精度路径，将神经形态块用于粗略、自适应的预处理，从而实现功耗与性能的平衡。
降低冯·诺依曼瓶颈 – 通过在执行卷积的同一片上保持权重更新，最小化数据移动——这对自主机器人等对延迟敏感的应用至关重要。

限制与未来工作

数值精度 – 8 位脉冲表示限制了滤波器的保真度，使得该方法不适用于高动态范围音频或射频前端，除非进行额外的补偿。
忆阻器抽象 – 本研究在 RTL 中对忆阻行为进行建模；实际硬件忆阻器可能表现出变异性、耐久性以及未在仿真中捕获的非理想特性。
可扩展性 – 实验仅限于较小的抽头数量（≤32）。扩展到大阶滤波器可能会重新引入资源压力，并需要层次化的脉冲路由。
学习规则探索 – 只使用了基本的 STDP 规则。未来工作可以研究更复杂的可塑性机制（例如基于强化的更新）及其对滤波器收敛性的影响。
工具链支持 – 现有的 FPGA 综合工具缺乏对脉冲语义的原生感知，设计者必须手动将 SNN 行为映射到 RTL。将神经形态原语集成到高级综合（HLS）中可能会简化开发流程。

结论：London 的工作表明，神经形态计算并非仅仅是受大脑启发的好奇心——只要开发者愿意在一定精度的牺牲下换取自适应、事件驱动的效率，它就可以成为在 FPGA 上削减延迟和功耗的实用方式，适用于日常 DSP 任务。

作者

Justin London

论文信息

arXiv ID: 2601.07069v1
分类: cs.NE, eess.SP
发表时间: 2026年1月11日
PDF: 下载 PDF

[Paper] 用于数字信号处理的神经形态 FPGA 设计

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] 一根绳子有多长？ 对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析