[논문] sEMG와 입술 읽기를 활용한 강인한 무음 음성 합성을 위한 교차 모달 마스킹

발행: (2026년 6월 9일 AM 12:50 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.09667v1

개요

무음 말 인터페이스(SSIs)를 통한 음성 복원은 성대 기능이 손상되었거나 없는 사람들을 위한 유망한 보조 기술로 떠오르고 있습니다. 비침습적 SSI 방식 중 표면 근전도(sEMG)와 영상 기반 입술 읽기는 서로 보완적인 조음 정보를 제공하지만, 이들을 연속적인 음성 합성에 통합하는 연구는 아직 충분히 이루어지지 않았습니다. 또한 기존의 다중 모달 접근법은 모달리티 손상이나 일시적인 센서 고장에 대한 강인성을 거의 다루지 않아 현실적인 적용에 한계가 있습니다. 본 연구에서는 훈련 과정에서 모달리티 마스킹을 적용해 sEMG와 입술 읽기 신호를 공동으로 활용하는 마스크 기반 다중 모달 음성 합성 프레임워크를 제안합니다. 다중 화자 설정에서 제안 방법은 가장 강력한 단일 모달 기준에 비해 단어 오류율을 최대 14%p 절감합니다. 실험 결과는 마스킹 전략이 이러한 성능 향상과 저비트 전송 조건에서의 강인성에 핵심적이며, 모달리티 부재 상황에서 열화 특화 데이터 증강보다 더 일반화된다는 것을 보여줍니다. 음소 수준 분석을 통해 모달리티 간 보완적 기여가 확인되었으며, 특히 모음과 특정 자음 그룹에서 큰 이점을 나타냈습니다. 전반적으로 이 결과는 무음 말 합성을 위한 마스크 기반 다중 모달 통합의 효과와 강인성을 입증하지만, 후두절제 화자에 대한 적응은 여전히 해결해야 할 연구 과제로 남아 있습니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • eess.AS
  • cs.CL
  • cs.SD

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 eess.AS 분야의 발전에 기여합니다.

저자

  • Eder del Blanco
  • David Gimeno-Gómez
  • Eva Navas
  • Carlos-D. Martínez-Hinarejos
  • Inma Hernáez

논문 정보

  • arXiv ID: 2606.09667v1
  • Categories: eess.AS, cs.CL, cs.SD
  • Published: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »