[Paper] 저지연 동공 검출을 위한 Neuromorphic Eye Tracking
발행: (2025년 12월 10일 오후 08:30 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.09969v1
개요
이 논문은 사용자의 동공을 5픽셀 이하의 오차로 찾으면서 몇 밀리와트 수준의 전력만 소비하고 3 ms 이하의 지연을 제공하는 신경형 눈추적 파이프라인을 소개한다. 최첨단 이벤트 기반 눈추적 네트워크를 누설 적분-발화(LIF) 레이어와 깊이별 분리 합성곱으로 구성된 스파이킹 신경망(SNN)으로 변환함으로써, 초저전력 하드웨어에서도 고정밀 시선 추정이 가능함을 입증한다—이는 진정으로 반응성이 뛰어난 AR/VR 웨어러블을 위한 필수 단계이다.
주요 기여
- 최고 성능 이벤트 기반 눈추적기의 신경형 재설계 – 무거운 순환/주의 블록을 경량 LIF 레이어로 교체.
- 모델 압축 – 가장 가까운 ANN 기준 대비 파라미터 수를 20배 감소시키고 이론적 FLOP을 850배 감소.
- 지연‑전력 트레이드오프 – 1 kHz 이벤트 스트림에서 약 3 ms 종단 간 지연과 3.9–4.9 mW 전력으로 실행될 것으로 예상.
- 전용 하드웨어와 근접한 정확도 – 평균 동공 중심 오차 3.7–4.1 px, Retina 신경형 시스템(3.24 px)과 비교 가능.
- 범용 설계 패턴 – 깊이별 분리 합성곱과 LIF 뉴런이 복잡한 ANN 모듈을 성능 저하 없이 대체할 수 있음을 보여줌.
방법론
- 이벤트 기반 입력 – 시스템은 전통적인 비디오 프레임이 아닌 동적 비전 센서(DVS)에서 발생하는 비동기 이벤트를 사용하여 마이크로초 수준의 시간 정보를 보존하고 모션 블러를 제거한다.
- 네트워크 아키텍처 – 고성능 ANN 눈추적기를 시작점으로, 저자들은:
- 순환 및 주의 모듈을 스파이크를 시간에 따라 자연스럽게 처리하는 LIF 뉴런 스택으로 교체.
- 표준 합성곱을 깊이별 분리 합성곱으로 교체하여 파라미터와 MAC 연산을 크게 감소.
- 학습 파이프라인 – SNN은 비미분 가능한 스파이킹 함수를 근사하는 대리 그래디언트 방법을 사용해 학습되며, ANN 기준과 동일한 라벨링된 이벤트 데이터셋에 대해 역전파가 가능하도록 한다.
- 효율성 추정 – ANN과 SNN 버전 모두에 대해 이론적 연산량(MAC)을 계산하고, 공개된 신경형 가속기 사양(예: Intel Loihi, BrainChip Akida)을 이용해 전력 및 지연을 추정한다.
결과 및 발견
| 모델 | 평균 동공 오차 (px) | 파라미터 (M) | 이론적 MAC (M) | 추정 전력 (mW) | 지연 (ms) |
|---|---|---|---|---|---|
| 원본 ANN (베이스라인) | 3.5 | 2.1 | 1,800 | ~3,200 | 6 |
| 제안된 신경형 SNN | 3.7‑4.1 | 0.10 | 2.1 | 3.9‑4.9 | ~3 |
| Retina 하드웨어 시스템 | 3.24 | – | – | – | – |
- SNN은 20배 모델 크기와 ≈850배 연산량 감소를 이루면서 최첨단 정확도에 근접한다.
- 전력 및 지연 추정치는 SNN이 배터리 구동 AR 안경의 밀리와트 예산에 충분히 들어맞으며, 시선 기반 렌더링을 지원하기에 충분히 빠른(≈300 Hz 유효 업데이트율) 응답을 제공한다.
실용적 함의
- AR/VR 헤드셋 – 실시간 시선 인식 렌더링을 이제 디바이스 내에서 GPU나 클라우드에 오프로드하지 않고 수행할 수 있어 대역폭을 절감하고 프라이버시를 보호하며 배터리 수명을 연장한다.
- 보조 웨어러블 – 저전력 눈추적은 제한된 운동 능력을 가진 사용자를 위한 눈 제어 인터페이스를 스마트 안경과 같은 소형 폼 팩터에서도 가능하게 한다.
- 인간‑컴퓨터 상호작용 연구 – 연구자들은 고속 카메라 없이도 시선 기반 UI 개념을 프로토타이핑할 수 있으며, 이벤트 기반 파이프라인은 급격한 머리 움직임에서도 견고하게 동작한다.
- 엣지 AI 하드웨어 – 설계가 기존 신경형 칩(Loihi, Akida, BrainWave)과 일치하므로, 이미 스파이킹 추론을 지원하는 차세대 엣지 프로세서에 손쉽게 통합할 수 있다.
제한점 및 향후 연구
- 하드웨어 검증 – 전력 및 지연 수치는 추정값이며, 실제 신경형 가속기에서의 물리적 측정이 필요하다.
- 데이터셋 다양성 – 실험은 단일 이벤트 기반 눈추적 벤치마크에 집중했으며, 다양한 조명 조건, 눈 형태, 가림 현상에 대한 광범위한 테스트가 일반화 가능성을 높일 것이다.
- 센서 노이즈에 대한 강인성 – DVS 센서는 저조도에서 노이즈가 많은 스파이크를 생성할 수 있으므로, 향후 적응형 임계값 설정이나 노이즈 인식 학습을 탐구할 수 있다.
- 전체 AR 파이프라인과의 통합 – SNN 눈추적기를 후속 시선 기반 렌더링 또는 초점 렌더링 모듈과 결합하는 것은 아직 해결되지 않은 시스템 엔지니어링 과제이다.
핵심 요약: 이벤트 기반 비전과 스파이킹 신경망을 결합함으로써, 고정밀·저지연 눈추적이 더 이상 전력 소모가 큰 부수적인 기능이 아니라 차세대 웨어러블 디바이스의 기본 역량이 될 수 있음을 보여준다.
저자
- Paul Hueber
- Luca Peres
- Florian Pitters
- Alejandro Gloriani
- Oliver Rhodes
논문 정보
- arXiv ID: 2510.09969v1
- 분류: cs.CV, cs.NE
- 발표일: 2025년 12월 10일
- PDF: Download PDF