[Paper] 언어를 넘어: Egocentric Vision에서 손 가리키기로 Referring Expressions Grounding

발행: (2026년 3월 28일 AM 02:49 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.26646v1

개요

이 논문은 현재 시각적 그라운딩 시스템의 핵심 제한점을 다룹니다: 시스템이 거의 전적으로 텍스트 설명에 의존하는데, 이는 모호하거나 애매할 수 있습니다. 손 가리키기를 보조적이고 자연스러운 단서로서 자아 중심(1인칭) 비디오에 도입함으로써, 저자들은 기계가 실제 세계 상호작용에서 “당신이 어디를 보고 있는지”를 이해할 수 있는 새로운 길을 열었습니다.

주요 기여

  • EgoPoint‑Ground 데이터셋 – 동기화된 음성, 손‑가리키기 제스처, 그리고 밀도 높은 의미 캡션을 포함한 15 k 이상의 자가 중심 비디오 클립과 정밀한 손‑대‑객체 경계 상자 주석.
  • 포괄적인 벤치마크 – 손‑가리키기 지시 표현 작업에 대해 고전적인 시각‑지향 모델과 최신 멀티모달 대형 언어 모델(MLLM)을 모두 평가.
  • SV‑CoT (Structured Visual Chain‑of‑Thought) – 지향을 단계별 추론으로 다루며 제스처와 언어 신호를 명시적으로 융합하는 새로운 베이스라인.
  • 뛰어난 성능 향상 – SV‑CoT는 기존 최고 방법보다 **절대 11.7 %**의 지향 정확도 향상을 달성.
  • 데이터셋 및 코드를 공개하여 재현성 및 후속 연구를 촉진.

Source:

방법론

  1. 데이터 수집 – 참가자들은 머리 착용형 카메라를 착용하고, 복잡한 실내 장면에서 물체와 상호작용하면서 자연스러운 지시 표현을 말하고 지배 손으로 가리킵니다.
  2. 주석 파이프라인
    • 손‑목표 경계 상자는 가리키는 제스처가 발생하는 각 프레임에 대해 수동으로 라벨링합니다.
    • 의미적 캡션은 장면과 의도된 물체를 여러 수준(물체 이름, 속성, 관계)으로 설명합니다.
  3. 모델 설계 (SV‑CoT)
    • 제스처 인코더는 비디오 스트림에서 손 자세와 위치 특징을 추출합니다.
    • 언어 인코더는 (ASR을 통해 전사된) 음성 표현을 처리합니다.
    • 시각적 체인‑오브‑생각 모듈은 순차적으로 추론합니다:
      a) 손을 찾고,
      b) 손 방향을 기반으로 가능한 목표 영역을 추정하고,
      c) 언어적 단서를 이용해 영역을 정제합니다.
    • 최종 그라운딩 박스는 중간 추론 상태를 통합하는 경량 검출 헤드에 의해 생성됩니다.

이 접근 방식은 의도적으로 모듈식으로 설계되어, 개발자가 전체 파이프라인을 재설계하지 않고도 다양한 비전 백본(예: ViT, Swin)이나 언어 모델(예: LLaMA‑2, GPT‑4)을 자유롭게 교체할 수 있습니다.

결과 및 발견

모델 / 변형그라운딩 정확도 (IoU ≥ 0.5)
베이스라인 VG (텍스트‑전용)42.3 %
최신 MLLM (예: LLaVA)48.7 %
SV‑CoT (제안)60.4 %
  • 손‑포인팅 단서만 추가해도 텍스트‑전용 베이스라인 대비 성능이 약 10 % 향상됩니다.
  • SV‑CoT의 구조화된 추론은 특히 심한 가림이나 모호한 언어가 있는 장면에서 엔드‑투‑엔드 블랙‑박스 멀티모달 모델을 지속적으로 능가합니다.
  • 소거 실험 결과, 제스처 인코더를 제거하면 정확도가 7 % 감소하고, 체인‑오브‑생각 추론을 생략하면 추가로 4 % 감소합니다.

실용적 함의

  • 로봇공학 및 AR/VR – 사용자의 손가리키기 제스처와 음성 명령을 함께 해석할 수 있는 로봇이나 AR 어시스턴트는 훨씬 직관적이며, 정밀한 음성 명령이나 UI 클릭의 필요성을 줄여줍니다.
  • 보조 기술 – 언어 장애가 있는 사용자를 위해 손 제스처에 의존하는 시스템은 여전히 의도를 파악할 수 있어 접근성을 확대합니다.
  • 인간‑컴퓨터 상호작용(HCI) 플랫폼 – SV‑CoT 스타일의 추론을 도입하면 협업 디자인 툴, 원격 유지보수, 교육 시뮬레이터 등에 보다 자연스러운 “가리키고 말하기” 인터페이스를 구현할 수 있습니다.
  • 테스트베드로서의 데이터셋 – EgoPoint‑Ground는 멀티모달 인식 스택을 구축하는 모든 개발자에게 즉시 사용 가능한 벤치마크를 제공하여 빠른 프로토타이핑과 다양한 모달리티 간 비교를 촉진합니다.

제한 사항 및 향후 연구

  • 도메인 범위 – 현재 데이터셋은 실내의 비교적 정적인 환경에 초점을 맞추고 있으며, 실외나 매우 동적인 환경에서의 성능은 아직 테스트되지 않았습니다.
  • 손만 사용하는 제스처 – 단일 손으로 가리키는 동작만이 주석 처리되어 있으며, 다른 지시 제스처(예: 펼친 손바닥, 잡기)는 포함되지 않습니다.
  • ASR 의존성 – 음성 전사 오류가 여전히 그라운딩 단계로 전파될 수 있으며, 오디오‑비주얼 음성 모델의 보다 긴밀한 통합이 유망한 방향입니다.
  • 확장성 – SV‑CoT는 경량이지만, 엣지 디바이스에서 실시간 배포하려면 추가적인 모델 압축이나 프루닝이 필요할 수 있습니다.

향후 연구에서는 데이터셋을 다양한 상황으로 확장하고, 제스처와 언어를 공동 학습하는 멀티모달 사전학습을 탐구하며, 보다 풍부한 구현된 상호작용을 위해 촉각 피드백을 통합할 수 있습니다.

저자

  • Ling Li
  • Bowen Liu
  • Zinuo Zhan
  • Peng Jie
  • Jianhui Zhong
  • Kenglun Chang
  • Zhidong Deng

논문 정보

  • arXiv ID: 2603.26646v1
  • 분류: cs.CV
  • 출판일: 2026년 3월 27일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[논문] Zero-Shot Depth from Defocus

Depth from Defocus (DfD)는 포커스 스택으로부터 조밀한 메트릭 깊이 맵을 추정하는 작업이다. 특정 데이터셋에 overfitting하는 기존 연구와 달리, 이 논문은…