[Paper] RosettaSpeech:零样本语音到语音翻译(单语数据)
发布: (2025年11月26日 GMT+8 10:02)
7 min read
原文: arXiv
Source: arXiv - 2511.20974v1
概览
RosettaSpeech 解决了语音到语音翻译(S2ST)中最大的瓶颈之一:大规模平行语音语料的几乎缺失。通过仅在单语语音‑文本数据上进行训练,并利用已有的文本‑文本机器翻译(MT)模型,作者构建了一个 零样本、端到端的 S2ST 系统,能够直接将源语音翻译为目标语音并保留说话者的声音。该方法简化了流水线,同时在广泛使用的基准上仍然达到最先进的性能。
主要贡献
- 零样本 S2ST 框架:无需平行语音‑语音数据,仅需单语语音‑文本对加上基于文本的 NMT 模型。
- 统一的端到端架构:推理时模型直接将源音频映射到目标音频,省去中间的文本生成和独立的 TTS 模块。
- 多对一多语言能力(法语、西班牙语、德语 → 英语)使用单一模型,展示了跨语言的可扩展性。
- 全面的规模分析:展示了增加单语语音‑文本数据量如何提升翻译质量。
- 最先进的结果在 CVSS‑C 基准上(ASR‑BLEU = 25.17 对于 DE→EN,29.86 对于 ES→EN),相较于之前的多阶段流水线提升了 14‑27 %。
方法论
-
数据准备
- 为每种语言收集大规模的 语音‑文本 对(例如 LibriSpeech、Common Voice)。
- 使用高质量的文本‑文本 NMT 系统从单语转录中生成 伪平行 的源‑目标文本对。
-
模型架构
- 编码器:自监督语音编码器(如 wav2vec 2.0)将原始音频转换为语言无关的潜在表示。
- 跨模态桥接:轻量级 Transformer 将语音潜在空间与 NMT 模型学习的文本潜在空间对齐。
- 解码器:类似神经声码器的解码器(如 HiFi‑GAN)直接从对齐的潜在向量合成目标语言语音,保留说话者特征。
-
训练目标
- 语音‑文本损失:首先微调编码器以预测源转录(标准 ASR 损失)。
- 文本‑语音损失:桥接层和解码器被训练以将 NMT 生成的目标转录重建为语音,使用 L1 频谱损失和对抗声码器损失的组合。
- 两个阶段共同优化,但 文本 仅作为监督信号出现;在推理时根本不出现。
-
推理
- 输入:原始源音频。
- 输出:合成的目标音频,单次前向传播生成——无需中间转录或独立的 TTS 步骤。
结果与发现
| 语言对 | 指标 (ASR‑BLEU) | 相对提升 vs. 先前 SOTA |
|---|---|---|
| 德语 → 英语 | 25.17 | +27 % |
| 西班牙语 → 英语 | 29.86 | +14 % |
| 法语 → 英语(多语言) | 27.4(约) | 与专用双语模型相当 |
- 说话者保留:主观听感测试显示,声纹相似度分数高于级联的 ASR‑MT‑TTS 流水线。
- 数据规模:性能随单语语音‑文本数据量的增加呈对数增长,证明随着公共语音数据集的增多,该方法仍可持续提升。
- 单模型多语言:同一 RosettaSpeech 模型无需语言特定微调即可处理三种源语言到英语的翻译,简化了部署。
实际意义
- 降低数据门槛:企业现在可以通过利用丰富的单语语音录音和现有的 MT 模型,为低资源语言构建 S2ST 服务,避免昂贵的平行语音采集。
- 简化技术栈:部署单一端到端模型可降低延迟、内存占用和工程开销,相较于传统的级联 ASR‑MT‑TTS 流水线更为高效。
- 实时保留声纹的翻译:直接的语音‑语音输出保留说话者音色,适用于实时会议、配音和需要身份识别的辅助工具等场景。
- 可扩展的多语言产品:通过添加更多单语数据即可扩展到其他源语言,对全球平台(如视频流媒体、客服)具有吸引力。
局限性与未来工作
- 依赖高质量文本 MT:伪平行文本对的质量上限了最终的翻译表现;MT 步骤的错误会传播到语音输出。
- 说话者变化处理:虽然声纹保留优于级联系统,但极端口音或噪声录音仍会导致质量下降。
- 评估范围:基准主要聚焦于欧洲语言;仍需在真正的低资源或声调语言上进行更广泛的测试。
- 未来方向:作者提出的方向包括:引入自训练循环在无需外部 MT 的情况下细化桥接层,探索多语言声码器实现多对多翻译,及扩展框架以处理代码切换或多模态输入。
作者
- Zhisheng Zheng
- Xiaohang Sun
- Tuan Dinh
- Abhishek Yanamandra
- Abhinav Jain
- Zhu Liu
- Sunil Hadap
- Vimal Bhat
- Manoj Aggarwal
- Gerard Medioni
- David Harwath
论文信息
- arXiv ID: 2511.20974v1
- 分类: eess.AS, cs.CL, cs.LG
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF