[Paper] RosettaSpeech: 단일 언어 데이터에서 제로샷 음성‑음성 번역
발행: (2025년 11월 26일 오전 11:02 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.20974v1
Overview
RosettaSpeech는 음성‑대‑음성 번역(S2ST)에서 가장 큰 병목 현상 중 하나인 대규모 병렬 음성 코퍼스의 거의 부재 문제를 해결합니다. 단일 언어의 음성‑텍스트 데이터만으로 학습하고 기존 텍스트‑대‑텍스트 기계 번역(MT) 모델을 활용함으로써, 저자들은 제로‑샷, 엔드‑투‑엔드 S2ST 시스템을 구축했습니다. 이 시스템은 화자의 목소리를 보존하면서 소스 음성에서 타깃 음성으로 직접 번역합니다. 결과적으로 파이프라인이 단순해지면서도 널리 사용되는 벤치마크에서 최첨단 성능을 달성합니다.
Key Contributions
- 제로‑샷 S2ST 프레임워크: 병렬 음성‑대‑음성 데이터가 전혀 필요 없으며, 단일 언어의 음성‑텍스트 쌍과 텍스트 기반 NMT 모델만 있으면 됩니다.
- 통합 엔드‑투‑엔드 아키텍처: 추론 시 모델이 소스 오디오를 바로 타깃 오디오로 매핑하여 중간 텍스트 생성 및 별도 TTS 모듈을 없앱니다.
- 다대일 다국어 지원(프랑스어, 스페인어, 독일어 → 영어) 하나의 모델로 구현하여 언어 확장성을 입증했습니다.
- 포괄적인 스케일링 분석: 단일 언어 음성‑텍스트 데이터 양을 늘릴수록 번역 품질이 향상되는 모습을 보여줍니다.
- 최첨단 결과: CVSS‑C 벤치마크에서 (ASR‑BLEU = 25.17 독일어→영어, 29.86 스페인어→영어) 기존 다단계 파이프라인보다 14‑27 % 향상되었습니다.
Methodology
-
Data Preparation
- 각 언어에 대해 대규모 단일 언어 음성‑텍스트 쌍 코퍼스(예: LibriSpeech, Common Voice)를 수집합니다.
- 고품질 텍스트‑대‑텍스트 NMT 시스템을 사용해 단일 언어 전사에서 의사‑병렬 소스‑타깃 텍스트 쌍을 생성합니다.
-
Model Architecture
- Encoder: 자기지도 학습 기반 음성 인코더(예: wav2vec 2.0)로 원시 오디오를 언어에 구애받지 않는 잠재 표현으로 변환합니다.
- Cross‑modal bridge: 가벼운 트랜스포머가 음성 잠재 공간을 NMT 모델이 학습한 텍스트 잠재 공간에 정렬합니다.
- Decoder: 신경 보코더 스타일 디코더(예: HiFi‑GAN)로 정렬된 잠재 벡터에서 직접 타깃 언어 음성을 합성하여 화자 특성을 보존합니다.
-
Training Objective
- Speech‑to‑text loss: 인코더를 먼저 미세조정해 소스 전사를 예측하도록 합니다(표준 ASR 손실).
- Text‑to‑speech loss: 브리지와 디코더를 훈련시켜 NMT가 생성한 타깃 전사를 음성으로 복원하도록 하며, L1 스펙트로그램 손실과 적대적 보코더 손실을 결합합니다.
- 두 단계는 공동 최적화되지만, 텍스트는 감독 신호로만 사용되며 추론 시에는 전혀 등장하지 않습니다.
-
Inference
- 입력: 원시 소스 오디오.
- 출력: 중간 전사나 별도 TTS 단계 없이 단일 순전파로 생성된 합성 타깃 오디오.
Results & Findings
| 언어 쌍 | 지표 (ASR‑BLEU) | 이전 SOTA 대비 상대 향상 |
|---|---|---|
| 독일어 → 영어 | 25.17 | +27 % |
| 스페인어 → 영어 | 29.86 | +14 % |
| 프랑스어 → 영어 (다중 언어) | 27.4 (대략) | 전용 이중언어 모델과 비슷 |
- 화자 보존: 주관적 청취 테스트에서 연쇄형 ASR‑MT‑TTS 파이프라인보다 높은 화자 유사도 점수를 기록했습니다.
- 데이터 스케일링: 성능이 단일 언어 음성‑텍스트 데이터 양에 대해 대략 로그 형태로 향상되어, 공개 음성 데이터가 늘어날수록 지속적인 개선이 가능함을 확인했습니다.
- 단일 모델 다국어: 하나의 RosettaSpeech 모델이 별도 언어별 미세조정 없이 세 가지 소스 언어를 영어로 번역해 배포 복잡성을 크게 낮췄습니다.
Practical Implications
- 데이터 장벽 감소: 기업은 방대한 단일 언어 음성 녹음과 기존 MT 모델만으로 저자원 언어에 대한 S2ST 서비스를 구축할 수 있어, 비용이 많이 드는 병렬 음성 수집을 피할 수 있습니다.
- 스택 단순화: 단일 엔드‑투‑엔드 모델을 배포하면 전통적인 연쇄형 ASR‑MT‑TTS 파이프라인에 비해 지연 시간, 메모리 사용량, 엔지니어링 오버헤드가 크게 감소합니다.
- 실시간 화자 보존 번역: 직접적인 음성‑대‑음성 출력은 화자의 음색을 유지하므로, 실시간 회의, 더빙, 음성 정체성이 중요한 접근성 도구 등에 활용할 수 있습니다.
- 확장 가능한 다국어 제품: 추가 단일 언어 데이터를 투입하면 모델을 손쉽게 새로운 소스 언어에 확장할 수 있어, 글로벌 플랫폼(예: 동영상 스트리밍, 고객 지원)에서 매력적입니다.
Limitations & Future Work
- 고품질 텍스트 MT 의존성: 의사‑병렬 텍스트 쌍의 품질이 최종 번역 성능을 제한하며, MT 단계의 오류가 음성 출력에 전이될 수 있습니다.
- 화자 변이 처리: 화자 보존이 연쇄형 시스템보다 개선됐지만, 극단적인 억양이나 잡음이 많은 녹음에서는 품질이 저하됩니다.
- 평가 범위: 벤치마크가 주로 유럽 언어에 초점돼 있어, 진정한 저자원 언어나 성조 언어에 대한 추가 테스트가 필요합니다.
- 향후 방향: 저자들이 제시한 바와 같이 외부 MT 없이 브리지를 자체 학습으로 정제하는 셀프‑트레이닝 루프 통합, 다대다 번역을 위한 다국어 보코더 탐색, 코드스위칭이나 멀티모달 입력 처리 확장 등이 있습니다.
Authors
- Zhisheng Zheng
- Xiaohang Sun
- Tuan Dinh
- Abhishek Yanamandra
- Abhinav Jain
- Zhu Liu
- Sunil Hadap
- Vimal Bhat
- Manoj Aggarwal
- Gerard Medioni
- David Harwath
Paper Information
- arXiv ID: 2511.20974v1
- Categories: eess.AS, cs.CL, cs.LG
- Published: November 26, 2025
- PDF: Download PDF