[Paper] 神经形态眼动跟踪用于低延迟瞳孔检测

发布: 2个月前 (2025年12月10日 GMT+8 19:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09969v1

概览

本文提出了一种神经形态眼动跟踪流水线，能够在仅消耗几毫瓦功率并实现亚 3 ms 延迟的情况下，将用户瞳孔定位误差控制在 5 像素以下。通过将最先进的基于事件的眼动跟踪网络转换为由泄漏积分-发放（LIF）层和深度可分离卷积构成的脉冲神经网络（SNN），作者展示了在超低功耗硬件上实现高精度凝视估计的可能性——这是实现真正响应式 AR/VR 可穿戴设备的关键一步。

主要贡献

神经形态重构的顶级事件驱动眼动跟踪器 – 用轻量级 LIF 层取代了笨重的循环/注意力块。
模型压缩 – 与最近的 ANN 基线相比，实现了参数量 20 倍的减少和理论 FLOPs 850 倍的下降。
延迟‑功耗权衡 – 预计在 1 kHz 事件流下运行功耗为 3.9–4.9 mW，端到端延迟约 3 ms。
精度接近专用硬件 – 瞳孔中心平均误差为 3.7–4.1 像素，媲美 Retina 神经形态系统（3.24 像素）。
可推广的设计模式 – 展示了深度可分离卷积和 LIF 神经元如何在不牺牲性能的前提下替代复杂的 ANN 模块。

方法论

基于事件的输入 – 系统使用来自动态视觉传感器（DVS）的异步事件，而非传统视频帧，保留了微秒级的时间细节并消除了运动模糊。
网络架构 – 从高性能的 ANN 眼动跟踪器出发，作者：
- 用一系列自然处理时间脉冲的 LIF 神经元堆叠取代循环和注意力模块。
- 用深度可分离卷积替换标准卷积，显著削减参数和乘加运算量。
训练流水线 – 采用代理梯度方法训练 SNN，近似不可微的脉冲函数，使得在与 ANN 基线相同的标注事件数据集上进行反向传播成为可能。
效率估计 – 对 ANN 与 SNN 两个版本的理论计算量（MAC）进行计算，并使用已发布的神经形态加速器规格（如 Intel Loihi、BrainChip Akida）对功耗/延迟进行预测。

结果与发现

模型	平均瞳孔误差 (px)	参数量 (M)	理论 MAC (M)	估计功耗 (mW)	延迟 (ms)
原始 ANN（基线）	3.5	2.1	1,800	~3,200	6
神经形态 SNN（提出）	3.7‑4.1	0.10	2.1	3.9‑4.9	~3
Retina 硬件系统	3.24	–	–	–	–

SNN 在保持接近最先进精度的同时，将模型规模削减 20×，计算量削减 约 850×。
功耗和延迟估计使得该 SNN 完全符合电池供电 AR 眼镜的毫瓦预算，并且响应足够快，可支持凝视驱动渲染（≈300 Hz 有效更新率）。

实际意义

AR/VR 头显 – 实时凝视感知渲染现在可以在设备端完成，无需将计算卸载到 GPU 或云端，降低带宽需求，保护隐私，并延长电池寿命。
辅助可穿戴设备 – 低功耗眼动跟踪使得眼控界面在体积紧凑的智能眼镜等形态下也能为运动能力受限的用户提供交互方式。
人机交互研究 – 研究者可以在无需昂贵高速摄像头的情况下原型化凝视驱动 UI 概念；基于事件的流水线在快速头部运动下表现稳健。
边缘 AI 硬件 – 该设计与现有神经形态芯片（Loihi、Akida、BrainWave）相匹配，便于集成到已经支持脉冲推理的下一代边缘处理器中。

局限性与未来工作

硬件验证 – 功耗和延迟数据为预测值；需要在实际神经形态加速器上进行实测以确认收益。
数据集多样性 – 实验仅聚焦于单一事件驱动眼动跟踪基准；在更广泛的光照条件、眼形和遮挡情况下进行测试将提升通用性。
对传感器噪声的鲁棒性 – DVS 在低光环境下会产生噪声脉冲；未来工作可探索自适应阈值或噪声感知训练方法。
与完整 AR 流水线的集成 – 将 SNN 眼动跟踪器与后续的凝视驱动渲染或聚焦渲染模块结合仍是一个系统工程挑战。

结论：通过将事件驱动视觉与脉冲神经网络相结合，本文表明高精度、低延迟的眼动跟踪不再是高功耗的附加功能——它可以成为下一代可穿戴设备的原生能力。

作者

Paul Hueber
Luca Peres
Florian Pitters
Alejandro Gloriani
Oliver Rhodes

论文信息

arXiv ID: 2512.09969v1
分类: cs.CV, cs.NE
发布日期: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] 神经形态眼动跟踪用于低延迟瞳孔检测

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

[Paper] V-RGBX：视频编辑对内在属性的精确控制

[Paper] Particulate: 前馈 3D 对象关节化

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成