[Paper] GMGaze: MoE 기반 컨텍스트 인식 시선 추정 with CLIP 및 멀티스케일 트랜스포머
Source: arXiv - 2605.00799v1
Overview
이 논문은 GMGaze를 소개한다. GMGaze는 CLIP 백본, CNN, 그리고 다중 스케일 트랜스포머에서 시각적 단서를 융합하고 Mixture‑of‑Experts(MoE)를 통해 동적으로 연산을 할당하는 새로운 시선 추정 프레임워크이다. 모델을 의미론적 프로토타입(조명, 배경, 머리 자세, 외관)으로 조건화하고 초기 융합을 수행함으로써, GMGaze는 후기 단계 병합 및 경직된 모델 스케일링의 일반적인 병목 현상을 극복하고 여러 공개 시선 추적 벤치마크에서 최첨단 정확도를 제공한다.
핵심 기여
- 시맨틱 프로토타입 컨디셔닝 – 조명, 배경, 머리 자세, 외관 네 개의 프로토타입 뱅크를 학습하여 CLIP 전역 이미지 임베딩을 편향시키고, 두 개의 보완적인 컨텍스트‑인식 전역 토큰을 생성합니다.
- 초기 통합 융합 – CLIP 패치 토큰, CNN 토큰, 그리고 프로토타입‑편향 전역 토큰을 첫 번째 트랜스포머 레이어에서 병합하여 세밀한 정보를 보존합니다.
- 희소 혼합‑전문가 (MoE) 레이어 – 토큰별로 조건부 연산 용량을 할당하여, 밀집 파라미터가 비례적으로 증가하지 않으면서 성능을 향상시킵니다.
- 특징‑분리 손실을 이용한 적대적 도메인 적응 – 두 전역 토큰이 상관관계를 유지하지 않도록 유도하여, 교차 도메인 강인성을 개선합니다.
- 포괄적인 평가 – MPIIFaceGaze, EYEDIAP, Gaze360, ETH‑XGaze에서 기존 연구보다 낮은 평균 각오차를 달성하고, 두 가지 표준 교차‑도메인 전이 경로에서 새로운 SOTA를 설정했습니다.
방법론
- Backbone extraction – 사전 학습된 CLIP 모델이 전역 이미지 임베딩과 패치 임베딩 집합을 제공합니다. 경량 CNN이 병렬로 실행되어 로컬 텍스처 단서를 포착합니다.
- Prototype conditioning – 네 개의 학습 가능한 뱅크가 일반적인 변동(조명, 배경, 머리 자세, 외관)을 인코딩합니다. 전역 CLIP 임베딩은 이 뱅크들에 의해 조절되어 고수준 장면 정보를 담은 두 개의 “컨텍스트 편향” 토큰을 생성합니다.
- Early fusion transformer – 모든 토큰(CLP 패치, CNN 특징, 두 개의 전역 토큰)을 연결하여 첫 번째 트랜스포머 레이어에 입력함으로써 전역 컨텍스트와 로컬 디테일이 처음부터 상호 작용하도록 합니다.
- Mixture‑of‑Experts layers – 각 트랜스포머 블록은 희소 MoE 모듈을 포함합니다. 토큰당 전문가 서브네트워크의 일부만 활성화되어 필요에 따라 모델 용량을 확장하면서도 추론 비용을 낮게 유지합니다.
- Domain adaptation – 적대적 디스크리미네이터가 융합된 표현으로부터 소스 도메인을 예측하려고 시도합니다. 동시에, 특징 분리 손실이 두 전역 토큰을 상관관계가 없도록 밀어내어 조명, 머리 자세 분포 등이 다른 데이터셋에 대한 모델 일반화를 돕습니다.
- Training objective – 표준 시선 방향 회귀 손실(각도 오차), 적대적 도메인 손실, 그리고 특징 분리 정규화를 결합합니다.
결과 및 발견
| Benchmark | 평균 각도 오차 (°) | 이전 SOTA 대비 개선 |
|---|---|---|
| MPIIFaceGaze | 2.49 | 약 0.3° 낮음 |
| EYEDIAP | 3.22 | 약 0.4° 낮음 |
| Gaze360 | 10.16 | 약 1.2° 낮음 |
| ETH‑XGaze | 1.44 | 약 0.2° 낮음 |
- 도메인 내: GMGaze는 CNN‑only, transformer‑only, CLIP‑only 베이스라인보다 일관되게 우수하며, 초기 융합 및 프로토타입 조건화가 실제 예측 성능을 크게 향상시킴을 확인함.
- 도메인 간: 한 데이터셋에서 학습하고 다른 데이터셋에서 테스트할 때(예: MPIIFaceGaze → ETH‑XGaze), 적대적 적응과 특징 분리가 가장 높은 전이 성능을 제공하며 도메인 격차를 약 15‑20% 감소시킴.
- 효율성: MoE 레이어가 추가되었음에도 불구하고, 토큰당 활성화되는 전문가 비율이 적어 모델의 FLOPs는 유사한 깊이의 밀집 트랜스포머와 비교해 비슷함.
실용적 함의
- 실시간 눈‑추적 앱 – Early fusion과 sparse MoE는 추론 지연을 낮게 유지하여 GMGaze를 온‑디바이스 시선 기반 UI 제어, AR/VR 헤드셋, 그리고 운전자 모니터링 시스템에 적합하게 만든다.
- 환경 변화에 대한 강인성 – 프로토타입 컨디셔닝은 조명 및 배경 변화를 명시적으로 모델링하므로, 개발자는 사무실, 야외, 저조도 환경에서도 광범위한 재학습 없이 안정적인 성능을 기대할 수 있다.
- 확장 가능한 배포 – MoE 아키텍처는 활성 전문가 수를 조정하여 정확도와 연산량 사이의 트레이드오프를 가능하게 하며, 스마트폰부터 엣지 서버까지 모든 장치에서 실행 가능한 단일 모델 패밀리를 제공한다.
- 도메인 간 전이 – 적대적 적응 파이프라인은 라벨링된 데이터가 부족한 다른 비전 작업(예: 얼굴 표정 인식)에도 재활용할 수 있어 데이터 수집 비용을 절감한다.
제한 사항 및 향후 연구
- 프로토타입 뱅크 크기 – 현재 네 개의 프로토타입 설계는 안경이나 마스크에 의한 가림과 같은 모든 미묘한 요인을 포착하지 못할 수 있습니다; 프로토타입을 확장하거나 적응형 프로토타입을 학습하면 견고성을 더욱 향상시킬 수 있습니다.
- MoE 라우팅 오버헤드 – 희소하지만 라우팅 메커니즘은 구현 복잡성을 증가시키며, 진정한 저지연 엣지 추론을 위해 하드웨어 특화 최적화가 필요할 수 있습니다.
- 도메인 적응 범위 – 적대적 스킴은 두 가지 전이 경로에서 평가되었으며, 보다 넓은 다중 소스 또는 지속 학습 시나리오는 아직 탐구되지 않았습니다.
- 설명 가능성 – 논문은 특정 시선 방향에 대해 어떤 전문가가 활성화되는지에 대한 시각화를 제공하지 않아, 해석 가능성은 향후 연구 과제로 남겨져 있습니다.
전반적으로, GMGaze는 대규모 비전‑언어 모델을 컨텍스트 인식 조건화 및 조건부 연산과 결합함으로써 시선 추정이 생산 수준의 정확도와 적응성을 향해 나아갈 수 있음을 보여줍니다.
저자
- Xinyuan Zhao
- Yihang Wu
- Ahmad Chaddad
- Sarah A. Alkhodair
- Reem Kateb
논문 정보
- arXiv ID: 2605.00799v1
- 카테고리: cs.CV
- 발행일: 2026년 5월 1일
- PDF: PDF 다운로드