[Paper] 포즈 기반 수화 스포팅 via an End-to-End Encoder Architecture

발행: (2025년 12월 10일 오전 12:49 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.08738v1

Overview

이 논문은 Sign Language Spotting이라는 새로운 작업을 소개한다. 이 작업은 짧은 쿼리 수화가 더 길고 연속적인 수화 비디오 안에 나타나는지를 시스템이 판단하도록 요구한다. 원시 비디오 프레임 대신 몸 자세 키포인트만을 사용함으로써, 저자들은 효율적인 엔드‑투‑엔드 인코더를 제시하고, 경쟁력 있는 정확도로 이 이진 “존재/부재” 질문에 답할 수 있다.

Key Contributions

  • Task definitionsign language spotting을 전체 문장 글로스 인식과 구별되는 검색 문제로 공식화한다.
  • Pose‑only pipeline – 2‑D/3‑D 골격 키포인트만을 입력으로 사용하여 비용이 많이 드는 RGB 처리와 시각적 잡음(예: 배경, 조명)을 제거한다.
  • Encoder‑only architecture – 경량 트랜스포머‑스타일 인코더와 이진 분류 헤드를 결합한 구조로, 중간 글로스나 텍스트 감독 없이 엔드‑투‑엔드로 학습한다.
  • Benchmark results – WSLP 2025 “Word Presence Prediction” 데이터셋에서 정확도 61.88 %와 F1 60.00 %를 달성하여 향후 연구를 위한 강력한 베이스라인을 제시한다.
  • Open‑source release – 코드와 사전 학습 모델을 공개하여 재현성 및 커뮤니티 확장을 장려한다.

Methodology

  1. Pose extraction – 각 비디오 프레임을 오프‑더‑쉘프 포즈 추정기(예: OpenPose, MediaPipe)로 처리해 키포인트 벡터(관절 좌표 + 신뢰도 점수) 시퀀스를 얻는다.
  2. Temporal encoding쿼리타깃 비디오의 키포인트 시퀀스를 연결하고 공유 트랜스포머 인코더에 입력한다. 위치 임베딩은 프레임 순서를 포착하고, 셀프‑어텐션은 두 스트림 간의 움직임 패턴을 연결한다.
  3. Binary classification head – 인코더의 최종 은닉 상태를 풀링(예: 평균 풀링)하고 작은 MLP를 통과시켜 “쿼리 존재”를 나타내는 단일 시그모이드 점수를 출력한다.
  4. Training – 라벨이 붙은 쌍(양성 = 쿼리가 나타남, 음성 = 나타나지 않음)으로 이진 교차 엔트로피 손실을 사용해 모델을 학습한다. 글로스 주석이나 언어 모델은 필요하지 않다.

전체 파이프라인은 포즈 데이터만 사용하므로, RGB 기반 CNN‑RNN 하이브리드에 비해 메모리 사용량과 추론 지연이 크게 감소한다.

Results & Findings

MetricValue
정확도61.88 %
F1‑score60.00 %
모델 크기~12 M 파라미터 (≈ 45 MB)
추론 속도RTX 3080 단일 GPU에서 약 120 fps (포즈 입력)
  • 포즈‑전용 모델은 동일 작업에 대해 학습된 RGB 기반 3‑D CNN 베이스라인보다 성능이 우수하여, 골격 움직임이 스포팅에 가장 구별력 있는 정보를 담고 있음을 확인한다.
  • Ablation 연구에서 셀프‑어텐션을 제거하거나 쿼리만 사용(타깃 컨텍스트 없음)할 경우 성능이 10 % 이상 감소함을 보여, 공동 시간 모델링의 중요성을 강조한다.
  • 포즈 키포인트가 제공하는 추상화 덕분에 서명자 외관 및 배경 변화에 강인하다.

Practical Implications

  • 실시간 수화 검색 – 개발자는 이 모델을 수화 아카이브용 비디오 검색 도구에 삽입해, 수동 주석 없이 특정 수화를 즉시 찾아볼 수 있다.
  • 보조 인터페이스 – 모바일이나 웹 앱이 실시간 비디오 스트림에서 특정 수화(예: 경고나 브랜드명)가 나타날 때 청각 장애인에게 알릴 수 있어 접근성을 향상한다.
  • 저자원 배포 – 포즈 데이터만 필요하므로, 스마트폰이나 AR 안경 같은 엣지 디바이스에서도 적은 연산량으로 실행 가능해, 온‑디바이스 수화 검증의 문을 연다.
  • 데이터 주석 지원 – 자동 스포팅은 긴 녹화를 사전 필터링해 인간 주석자가 탐지를 확인·수정하는 데 집중하도록 하여, 하위 ASLR 작업을 위한 데이터셋 구축을 가속한다.

Limitations & Future Work

  • 포즈 품질 의존성 – 모델 정확도는 신뢰할 수 있는 키포인트 검출에 크게 좌우된다; 가림, 극단적인 카메라 각도, 저해상도 영상은 성능 저하를 초래할 수 있다.
  • 이진 범위 – 현재 형태는 “존재/부재”만 답한다. 어떤 수화인지 식별하는 다중 클래스 스포팅이나 겹치는 수화 처리로 확장하는 것은 아직 미해결이다.
  • 시간적 세분화 – 스포팅은 비디오 수준에서 수행되며, 정확한 시작/종료 프레임과 같은 세밀한 위치 지정은 다루지 않는다.
  • 데이터셋 규모 – WSLP 2025 벤치마크는 비교적 작으며, 더 크고 다양성 있는 코퍼스가 필요해 수화 언어와 서명 스타일 전반에 걸친 일반화를 평가해야 한다.

향후 연구 방향으로는 포즈와 손 모양을 결합한 단서 통합, 대규모 라벨 없는 수화 비디오에 대한 자기지도 사전학습, 스포팅과 전체 문장 번역을 동시에 수행하는 계층적 모델 탐색 등이 있다.

Authors

  • Samuel Ebimobowei Johnny
  • Blessed Guda
  • Emmanuel Enejo Aaron
  • Assane Gueye

Paper Information

  • arXiv ID: 2512.08738v1
  • Categories: cs.CV, cs.CL
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »