[Paper] Bangla Sign Language Translation: 데이터셋 생성 과제, 벤치마킹 및 전망
발행: (2025년 11월 27일 오전 01:00 GMT+9)
7 min read
원문: arXiv
Source: arXiv - 2511.21533v1
개요
Bangla Sign Language Translation (BdSLT)은 데이터 부족으로 오랫동안 고품질 AI 어시스턴트를 구축하기 어려웠습니다. 이 논문은 IsharaKhobor라는 최초의 대규모 공개 방글라어 수화 데이터셋을 소개하고, 다양한 전처리 기법이 번역 성능에 미치는 영향을 보여줍니다.
주요 기여
- IsharaKhobor 데이터셋: ~5 천 개의 방글라어 수화 문장 비디오와 정렬된 텍스트 번역을 포함하며, Kaggle에서 공개되었습니다.
- 두 개의 선별된 서브셋:
- IsharaKhobor_small: 저자원 실험을 위한 어휘 제한 버전.
- IsharaKhobor_canonical_small: 위와 동일하지만 정규화된(표준화된) 글로스를 사용.
- 데이터셋 생성 파이프라인: 주석 작업 흐름, 품질 관리, 방글라어 수화 특유의 언어학적 과제에 대한 상세 논의.
- 벤치마킹 스위트: 랜드마크 기반 원시 비디오 특징과 최신 RQE(Relation‑Query‑Embedding) 접근법을 사용한 베이스라인 모델, 어휘 크기와 정규화에 대한 소거 실험 포함.
- 오픈소스 공개: 데이터, 전처리 스크립트, 평가 코드를 모두 공개하여 재현성 및 커뮤니티 기여를 장려.
방법론
- 데이터 수집 – 방글라어 원어민 BdSL 수화자가 일상 주제의 짧은 문장(5‑15 초)을 녹화. 각 비디오는 일관된 조명 하에서 단일 RGB 카메라로 촬영.
- 주석 – 전문 방글라어 언어학자가 수화 내용을 텍스트 문장으로 전사하고, 동시에 글로스(수화를 단어별로 표현한 것)를 생성.
- 전처리 –
- 랜드마크 추출: OpenPose를 이용해 2‑D 손, 몸, 얼굴 키포인트(프레임당 약 150점)를 추출.
- RQE 임베딩: 시공간 랜드마크 시퀀스에 대한 관계 쿼리를 학습하는 트랜스포머 기반 인코더.
- 어휘 제한: “small” 서브셋에서는 가장 빈번한 1 천 개 글로스만 유지.
- 정규화: 동의어 병합, 철자 교정 등으로 글로스를 표준화하여 노이즈 감소.
- 모델링 – 원시 랜드마크와 RQE 임베딩을 각각 입력으로 하는 시퀀스‑투‑시퀀스(Encoder‑Decoder with attention) 구조를 학습. 표준 지표(BLEU, ROUGE, METEOR)로 번역 품질을 평가.
- 소거 실험 – 전체 어휘 vs. 소규모 어휘, 원시 vs. 정규화 글로스, 랜드마크 vs. RQE 특징을 비교.
결과 및 인사이트
| 실험 | BLEU ↑ | ROUGE‑L ↑ | METEOR ↑ |
|---|---|---|---|
| 전체 데이터셋 (랜드마크) | 21.4 | 38.7 | 19.2 |
| 전체 데이터셋 (RQE) | 24.1 | 41.2 | 22.0 |
| 소규모 어휘 (랜드마크) | 18.9 | 35.4 | 17.5 |
| 소규모 어휘 (정규화) | 20.6 | 37.1 | 19.0 |
- RQE 임베딩이 원시 랜드마크보다 일관되게 우수했으며, 관계 모델링이 수화 동역학을 더 잘 포착함을 확인했습니다.
- 정규화는 약 1.5 BLEU 정도의 소폭 향상을 제공, 글로스 모호성을 감소시켰습니다.
- 어휘 제한은 성능 저하를 초래했지만, 정규화와 결합될 경우 격차가 줄어들어 초저자원 상황에서도 실용적인 접근이 가능함을 시사합니다.
실용적 함의
- 보조 앱 – 개발자는 공개된 데이터셋과 베이스라인 코드를 활용해 실시간 BdSL‑to‑text 번역기를 빠르게 프로토타이핑할 수 있어, 방글라어 청각장애 사용자를 위한 모바일·웹 기반 커뮤니케이션 도구 개발이 가속화됩니다.
- 전이 학습 – RQE 인코더는 다른 수화 언어에 대해 파인튜닝이 가능해, 다국어 수화 연구를 위한 재사용 가능한 컴포넌트를 제공합니다.
- 교육 커리큘럼 – 선별된 서브셋을 활용해 데이터 정제·저자원 NLP 등 머신러닝 개념을 문화적으로 관련된 사례로 가르칠 수 있습니다.
- 표준화 작업 – 정규화된 글로스는 방글라어 수화 어휘 사전 구축의 출발점이 되며, 정부 주도의 접근성 표준에 기여할 수 있습니다.
한계 및 향후 연구
- 규모 – 약 5 천 개 클립으로, 대규모 수화 코퍼스에 비해 아직 작으며, 더 다양한 수화자, 환경, 문장 구조가 필요합니다.
- 모달리티 – 현재는 RGB 비디오만 수집했으며, 깊이 영상이나 모션 캡처 데이터가 손 모양 구분에 도움이 될 수 있습니다.
- 평가 – BLEU와 같은 자동 지표가 수화 특성을 완전히 반영하지 못하므로, 인간 평가를 포함한 평가 방식을 계획하고 있습니다.
- 모델링 – 이번 연구는 랜드마크 기반 파이프라인에 초점을 맞췄으며, 향후 엔드‑투‑엔드 비디오 트랜스포머나 오디오(입술 읽기)와의 다중모달 융합을 탐색할 예정입니다.
저자
- Husne Ara Rubaiyeat
- Hasan Mahmud
- Md Kamrul Hasan
논문 정보
- arXiv ID: 2511.21533v1
- Categories: cs.CL, cs.CV
- Published: November 26, 2025
- PDF: Download PDF