[논문] KIT, IWSLT 2026 교차언어 음성 클로닝에 제출
개요
교차언어 음성 클로닝은 소스 언어의 참조 음성을 이용해 화자 정체성을 유지하면서 목표 언어로 음성을 생성하는 기술이다. 이 작업은 음성 번역의 핵심 과제이며 IWSLT 2026 교차언어 음성 클로닝 트랙의 주요 목표이다. 억양 차이와 도메인 특화 어휘가 존재할 때 가독성과 자연스러움을 유지하는 것이 큰 도전 과제이다. 우리는 다국어 텍스트‑투‑스피치 모델인 FishAudio‑S2‑Pro를 기반으로 언어 태그 프롬프트를 도입해 언어 제어를 강화하고 억양 누수를 감소시켰다. 또한 강화 학습(RL) 파인튜닝을 적용해 작업 적응성을 높였으며, 그 결과 가독성이 향상되는 것을 확인하였다. 마지막으로, 어휘가 겹치는 경우 도메인 특화 용어의 발음을 개선하는 레퍼런스 기반 어휘 매칭 방법을 제안한다. 실험 결과, 언어 프롬프트가 가장 큰 성능 향상을 제공하고, 어휘 매칭은 매치된 부분 집합에서 일관된 개선을 보여준다.
주요 기여
이 논문은 다음 분야의 연구를 다룬다:
- cs.CL
- cs.SD
방법론
자세한 방법론은 전체 논문을 참고하시기 바란다.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여한다.
저자
- Seymanur Akti
- Alexander Waibel
논문 정보
- arXiv ID: 2606.07240v1
- 분류: cs.CL, cs.SD
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드