[Paper] STEMNIST: 脉冲触觉扩展 MNIST 神经形态数据集
发布: (2026年1月5日 GMT+8 04:26)
6 min read
原文: arXiv
Source: arXiv - 2601.01658v1
概述
作者提出了 STEMNIST,一个大规模神经形态触觉数据集,将原始的 ST‑MNIST 数字集扩展到 35 个字母数字类(A–Z 和 1–9)。通过从 16 × 16 触觉传感器阵列捕获超过 1 M 脉冲事件,该数据集提供了一个真实的、事件驱动的基准,用于机器人、假肢以及其他人机交互中的触觉感知。
关键贡献
- Dataset expansion – 将触觉基准从10个数字扩展到35个字母数字符号,匹配 EMNIST 视觉协议。
- High‑resolution event encoding – 34 位参与者生成了 7 700 个样本,记录频率为 120 Hz,并通过自适应时间差分转换为 1 005 592 个脉冲事件。
- Open‑source release – 完整数据集、文档和基线代码已公开,可促进可重复性。
- Baseline performance – 提供传统卷积神经网络(CNN,90.91 %)和脉冲神经网络(SNN,89.16 %)的参考准确率。
- Hardware‑friendly format – 基于事件的表示与神经形态芯片(如 Loihi、TrueNorth)相匹配,实现低功耗触觉推理。
方法论
- 数据收集 – 在手持探头上安装了一个 16 × 16 的压敏阵列(120 Hz)。34 名志愿者在传感器表面描绘每个字母数字字符,生成原始压力帧。
- 尖峰转换 – 自适应时间差分算法检测压力随时间的显著变化,为每个活跃的像素‑时间对发出二进制“尖峰”(1)。这产生类似神经形态视觉传感器的稀疏、异步事件流。
- 数据集划分 – 按照 EMNIST,数据被划分为训练集(≈ 6 200 条样本)和测试集(≈ 1 500 条样本),在划分中保持参与者的多样性。
- 基线模型
- CNN – 对尖峰的帧累积进行标准的 2‑D 卷积。
- SNN – 使用代理梯度反向传播在原始事件流上训练泄漏积分‑发放(Leaky‑integrate‑and‑fire)神经元。
所有预处理步骤和超参数详见随附的代码仓库。
结果与发现
| 模型 | 测试准确率 |
|---|---|
| 传统卷积神经网络(基于帧) | 90.91 % |
| 脉冲神经网络(基于事件) | 89.16 % |
解释
- 约 1.8 % 的小幅差距表明,SNN 在保持事件驱动处理的节能优势的同时,能够接近 CNN 的性能。
- 误分类主要集中在视觉上相似的字符(例如 “O” 与 “0”、 “I” 与 “1”),说明触觉形状辨别仍存在歧义,可通过更丰富的时间线索或多模态感知来缓解。
实际意义
- 机器人操作 – 配备类脑触觉皮肤的机器人现在可以在无需视觉的情况下识别物体上的字母数字标签(例如工具编号、药品包装),从而在低光或遮挡环境中工作。
- 假肢反馈 – 基于 SNN 的控制器能够解码用户在假肢指尖上绘制的符号,为无需外部设备的即时指令输入打开了新途径。
- 边缘 AI 硬件 – 脉冲式数据格式已准备好部署在低功耗类脑处理器上,实现毫瓦级能耗预算下的持续触觉监测。
- 人机交互界面 – 在重视隐私(无摄像头)和能效的设备上,基于触摸的密码输入或手势词汇表变得可行。
开发者可以将该数据集接入现有的类脑框架(如 Lava、BindsNET),用于基准测试自定义学习规则、硬件加速器或混合 CNN‑SNN 流水线。
局限性与未来工作
- 传感器几何 – 16 × 16 网格限制了空间分辨率;扩展到更大的阵列可能会出现新的挑战。
- 用户变异性 – 虽然有 34 名参与者提供了多样性,但在真实环境中的部署将会遇到更广泛的压力范围和手部动态。
- 时间丰富性 – 当前的自适应微分压缩了一些细粒度的时间信息;未来的版本可以保留更高频率的事件,以充分利用 SNN 的潜力。
- 多模态融合 – 将触觉脉冲与视觉或听觉线索相结合留待后续研究,这有望实现更稳健的物体识别。
总体而言,STEMNIST 填补了神经形态触觉研究中的关键空白,并为下一代交互系统中能效高的触觉感知提供了坚实的基础。
作者
- Anubhab Tripathi
- Li Gaishan
- Zhengnan Fu
- Chiara Bartolozzi
- Bert E. Shi
- Arindam Basu
论文信息
- arXiv ID: 2601.01658v1
- Categories: cs.NE
- Published: 2026年1月4日
- PDF: 下载 PDF