[Paper] 저지연 동공 검출을 위한 Neuromorphic Eye Tracking

발행: 2개월 전 (2025년 12월 10일 오후 08:30 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.09969v1

개요

이 논문은 사용자의 동공을 5픽셀 이하의 오차로 찾으면서 몇 밀리와트 수준의 전력만 소비하고 3 ms 이하의 지연을 제공하는 신경형 눈추적 파이프라인을 소개한다. 최첨단 이벤트 기반 눈추적 네트워크를 누설 적분-발화(LIF) 레이어와 깊이별 분리 합성곱으로 구성된 스파이킹 신경망(SNN)으로 변환함으로써, 초저전력 하드웨어에서도 고정밀 시선 추정이 가능함을 입증한다—이는 진정으로 반응성이 뛰어난 AR/VR 웨어러블을 위한 필수 단계이다.

주요 기여

최고 성능 이벤트 기반 눈추적기의 신경형 재설계 – 무거운 순환/주의 블록을 경량 LIF 레이어로 교체.
모델 압축 – 가장 가까운 ANN 기준 대비 파라미터 수를 20배 감소시키고 이론적 FLOP을 850배 감소.
지연‑전력 트레이드오프 – 1 kHz 이벤트 스트림에서 약 3 ms 종단 간 지연과 3.9–4.9 mW 전력으로 실행될 것으로 예상.
전용 하드웨어와 근접한 정확도 – 평균 동공 중심 오차 3.7–4.1 px, Retina 신경형 시스템(3.24 px)과 비교 가능.
범용 설계 패턴 – 깊이별 분리 합성곱과 LIF 뉴런이 복잡한 ANN 모듈을 성능 저하 없이 대체할 수 있음을 보여줌.

방법론

이벤트 기반 입력 – 시스템은 전통적인 비디오 프레임이 아닌 동적 비전 센서(DVS)에서 발생하는 비동기 이벤트를 사용하여 마이크로초 수준의 시간 정보를 보존하고 모션 블러를 제거한다.
네트워크 아키텍처 – 고성능 ANN 눈추적기를 시작점으로, 저자들은:
- 순환 및 주의 모듈을 스파이크를 시간에 따라 자연스럽게 처리하는 LIF 뉴런 스택으로 교체.
- 표준 합성곱을 깊이별 분리 합성곱으로 교체하여 파라미터와 MAC 연산을 크게 감소.
학습 파이프라인 – SNN은 비미분 가능한 스파이킹 함수를 근사하는 대리 그래디언트 방법을 사용해 학습되며, ANN 기준과 동일한 라벨링된 이벤트 데이터셋에 대해 역전파가 가능하도록 한다.
효율성 추정 – ANN과 SNN 버전 모두에 대해 이론적 연산량(MAC)을 계산하고, 공개된 신경형 가속기 사양(예: Intel Loihi, BrainChip Akida)을 이용해 전력 및 지연을 추정한다.

결과 및 발견

모델	평균 동공 오차 (px)	파라미터 (M)	이론적 MAC (M)	추정 전력 (mW)	지연 (ms)
원본 ANN (베이스라인)	3.5	2.1	1,800	~3,200	6
제안된 신경형 SNN	3.7‑4.1	0.10	2.1	3.9‑4.9	~3
Retina 하드웨어 시스템	3.24	–	–	–	–

SNN은 20배 모델 크기와 ≈850배 연산량 감소를 이루면서 최첨단 정확도에 근접한다.
전력 및 지연 추정치는 SNN이 배터리 구동 AR 안경의 밀리와트 예산에 충분히 들어맞으며, 시선 기반 렌더링을 지원하기에 충분히 빠른(≈300 Hz 유효 업데이트율) 응답을 제공한다.

실용적 함의

AR/VR 헤드셋 – 실시간 시선 인식 렌더링을 이제 디바이스 내에서 GPU나 클라우드에 오프로드하지 않고 수행할 수 있어 대역폭을 절감하고 프라이버시를 보호하며 배터리 수명을 연장한다.
보조 웨어러블 – 저전력 눈추적은 제한된 운동 능력을 가진 사용자를 위한 눈 제어 인터페이스를 스마트 안경과 같은 소형 폼 팩터에서도 가능하게 한다.
인간‑컴퓨터 상호작용 연구 – 연구자들은 고속 카메라 없이도 시선 기반 UI 개념을 프로토타이핑할 수 있으며, 이벤트 기반 파이프라인은 급격한 머리 움직임에서도 견고하게 동작한다.
엣지 AI 하드웨어 – 설계가 기존 신경형 칩(Loihi, Akida, BrainWave)과 일치하므로, 이미 스파이킹 추론을 지원하는 차세대 엣지 프로세서에 손쉽게 통합할 수 있다.

제한점 및 향후 연구

하드웨어 검증 – 전력 및 지연 수치는 추정값이며, 실제 신경형 가속기에서의 물리적 측정이 필요하다.
데이터셋 다양성 – 실험은 단일 이벤트 기반 눈추적 벤치마크에 집중했으며, 다양한 조명 조건, 눈 형태, 가림 현상에 대한 광범위한 테스트가 일반화 가능성을 높일 것이다.
센서 노이즈에 대한 강인성 – DVS 센서는 저조도에서 노이즈가 많은 스파이크를 생성할 수 있으므로, 향후 적응형 임계값 설정이나 노이즈 인식 학습을 탐구할 수 있다.
전체 AR 파이프라인과의 통합 – SNN 눈추적기를 후속 시선 기반 렌더링 또는 초점 렌더링 모듈과 결합하는 것은 아직 해결되지 않은 시스템 엔지니어링 과제이다.

핵심 요약: 이벤트 기반 비전과 스파이킹 신경망을 결합함으로써, 고정밀·저지연 눈추적이 더 이상 전력 소모가 큰 부수적인 기능이 아니라 차세대 웨어러블 디바이스의 기본 역량이 될 수 있음을 보여준다.

저자

Paul Hueber
Luca Peres
Florian Pitters
Alejandro Gloriani
Oliver Rhodes

논문 정보

arXiv ID: 2510.09969v1
분류: cs.CV, cs.NE
발표일: 2025년 12월 10일
PDF: Download PDF

[Paper] 저지연 동공 검출을 위한 Neuromorphic Eye Tracking

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[Paper] 모멘트 기반 3D Gaussian Splatting: 순서 독립 투과율을 통한 볼류메트릭 차폐 해결

[Paper] V-RGBX: 내재적 속성에 대한 정확한 제어를 통한 비디오 편집

[Paper] Particulate: Feed-Forward 3D 객체 관절화

[Paper] AnchorDream: 비디오 디퓨전을 활용한 Embodiment-Aware 로봇 데이터 합성