[Paper] Stable Signer: 계층적 수화 생성 모델

발행: (2025년 12월 4일 오전 03:33 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.04048v1

개요

이 논문은 Stable Signer라는 새로운 end‑to‑end 생성 모델을 소개한다. 이 모델은 텍스트를 직접 고품질의 다중 스타일 수화 비디오로 변환한다. 전통적인 오류가 잦은 파이프라인을 텍스트 이해와 포즈‑투‑비디오 렌더링 두 단계만으로 축소함으로써 기존 최첨단(SOTA) 방법보다 48.6 %의 성능 향상을 달성한다.

주요 기여

  • 계층적 end‑to‑end 아키텍처: 중간 Gloss‑2‑Pose 단계를 없애 오류 누적을 감소시킨다.
  • Sign Language Understanding Linker (SLUL): Semantic‑Aware Gloss Masking (SAGM) loss와 함께 학습되는 새로운 텍스트‑to‑gloss 모듈로, 학습 과정에서 gloss 의미를 더 잘 보존한다.
  • SLP‑MoE 손동작 렌더링 블록: 여러 서명 스타일에 걸쳐 현실적인 손동작 합성을 수행하도록 특화된 mixture‑of‑experts(MoE) 네트워크.
  • 48.6 % 성능 향상: 표준 수화 벤치마크에서 이전 최고의 생성 접근법보다 우수한 결과를 보인다.
  • 다중 스타일 비디오 출력: 전체 모델을 재학습하지 않고도 서로 다른 서명자 아바타나 지역별 서명 변형에 맞게 적응할 수 있다.

방법론

  1. 텍스트 이해 (Prompt2Gloss & Text2Gloss)

    • 입력 문장은 먼저 토큰화된 뒤 SLUL에 전달되어 gloss 시퀀스(수화의 언어적 표현)를 예측한다.
    • 단순 교차 엔트로피 손실 대신, 저자들은 의미 유사도에 기반해 gloss 토큰을 마스킹하고 SAGM 손실을 적용하여 정확한 토큰 매칭보다 의미에 집중하도록 모델을 유도한다.
  2. 포즈‑투‑비디오 생성 (Pose2Vid)

    • 예측된 gloss 시퀀스는 Mixture‑of‑Experts (MoE) 디코더를 구동해 3‑D 손 및 몸 자세 궤적을 만든다.
    • 각 전문가(Expert)는 특정 서명 스타일(예: 부드러운 스타일 vs. 표현적인 스타일)에 특화되어 있으며, 게이팅 네트워크가 프레임마다 적절한 혼합을 선택한다.
    • 포즈 스트림은 이후 신경 렌더러에 입력되어 포토리얼리스틱 비디오 프레임을 합성한다. 이 과정에서는 안정성과 디테일을 위해 최신 diffusion‑기반 비디오 합성 기술을 활용한다.
  3. 학습 파이프라인

    • 전체 시스템은 다음 손실들의 조합으로 end‑to‑end 학습된다:
      • gloss 예측을 위한 SAGM 손실,
      • 관절 좌표에 대한 L2 손실인 포즈 재구성 손실,
      • 현실감을 높이는 비디오 적대 손실(GAN‑style),
      • 프레임 간 일관성을 유지하는 스타일 일관성 정규화.

결과 및 발견

MetricStable SignerPrior SOTA
BLEU‑4 (gloss accuracy)0.710.48
SSIM (video quality)0.840.73
FRE (Fidelity‑to‑real‑sign)0.780.55
Overall composite score1.48× improvement
  • 모델은 손 자세의 평균 프레임당 오류를 ~30 % 감소시켜 보다 부드럽고 자연스러운 제스처를 만든다.
  • 청각 장애인 참여자를 대상으로 한 인간 평가에서 수화 이해도( intelligibility)가 62 %에서 89 %로 상승했다.
  • 다중 스타일 생성은 즉시 사용 가능하다: 하나의 모델이 스타일 토큰만 교체하면 세 가지 서로 다른 서명 스타일의 비디오를 생성한다.

실용적 함의

  • 실시간 캡션 및 번역 서비스: 개발자는 Stable Signer를 비디오 회의 도구에 통합해 무거운 다단계 파이프라인 없이 실시간 수화 출력을 제공할 수 있다.
  • 교육 및 접근성 플랫폼: e‑learning 사이트는 텍스트 콘텐츠에 대해 자동으로 수화 비디오를 생성해 제작 비용을 크게 절감할 수 있다.
  • 아바타 기반 커뮤니케이션: 게임 엔진이나 VR 환경은 MoE 블록을 활용해 사용자의 문화적 배경에 맞는 스타일로 서명하는 아바타를 애니메이션화할 수 있다.
  • 저자원 수화 언어: 모델이 압축된 gloss 표현을 학습하기 때문에 작은 데이터셋으로도 미세 조정이 가능해, 소외된 수화 언어에 대한 빠른 배포가 가능하다.

제한점 및 향후 연구

  • 데이터셋 편향: 학습 데이터는 주로 몇몇 널리 사용되는 수화 언어(예: ASL, CSL)에 국한되어 있어, 문서화가 적은 언어에 대한 성능은 검증되지 않았다.
  • 계산 비용: MoE 렌더링 블록은 유연성을 제공하지만 GPU 메모리 사용량을 증가시켜 엣지 디바이스에 배포하기 어렵게 만든다.
  • 세밀한 얼굴 표정: 현재 비디오 합성은 손과 몸 움직임에 초점을 맞추고 있어, 많은 수화 언어에서 문법적으로 중요한 미묘한 얼굴 표정은 아직 충분히 반영되지 않는다.

저자들이 제시한 향후 연구 방향은 얼굴 표정 생성기 통합, 모바일 추론을 위한 MoE 아키텍처 최적화, 그리고 언어 범위를 넓히기 위한 다국어 gloss 코퍼스 구축 등을 포함한다.

저자

  • Sen Fang
  • Yalin Feng
  • Hongbin Zhong
  • Yanxin Zhang
  • Dimitris N. Metaxas

논문 정보

  • arXiv ID: 2512.04048v1
  • Categories: cs.CV, cs.CL, cs.CY
  • Published: December 3, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »