[Paper] RosettaSpeech：零样本语音到语音翻译（单语数据）

发布: 2个月前 (2025年11月26日 GMT+8 10:02)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.20974v1

概览

RosettaSpeech 解决了语音到语音翻译（S2ST）中最大的瓶颈之一：大规模平行语音语料的几乎缺失。通过仅在单语语音‑文本数据上进行训练，并利用已有的文本‑文本机器翻译（MT）模型，作者构建了一个 零样本、端到端的 S2ST 系统，能够直接将源语音翻译为目标语音并保留说话者的声音。该方法简化了流水线，同时在广泛使用的基准上仍然达到最先进的性能。

主要贡献

零样本 S2ST 框架：无需平行语音‑语音数据，仅需单语语音‑文本对加上基于文本的 NMT 模型。
统一的端到端架构：推理时模型直接将源音频映射到目标音频，省去中间的文本生成和独立的 TTS 模块。
多对一多语言能力（法语、西班牙语、德语 → 英语）使用单一模型，展示了跨语言的可扩展性。
全面的规模分析：展示了增加单语语音‑文本数据量如何提升翻译质量。
最先进的结果在 CVSS‑C 基准上（ASR‑BLEU = 25.17 对于 DE→EN，29.86 对于 ES→EN），相较于之前的多阶段流水线提升了 14‑27 %。

方法论

数据准备
- 为每种语言收集大规模的 语音‑文本 对（例如 LibriSpeech、Common Voice）。
- 使用高质量的文本‑文本 NMT 系统从单语转录中生成 伪平行 的源‑目标文本对。
模型架构
- 编码器：自监督语音编码器（如 wav2vec 2.0）将原始音频转换为语言无关的潜在表示。
- 跨模态桥接：轻量级 Transformer 将语音潜在空间与 NMT 模型学习的文本潜在空间对齐。
- 解码器：类似神经声码器的解码器（如 HiFi‑GAN）直接从对齐的潜在向量合成目标语言语音，保留说话者特征。
训练目标
- 语音‑文本损失：首先微调编码器以预测源转录（标准 ASR 损失）。
- 文本‑语音损失：桥接层和解码器被训练以将 NMT 生成的目标转录重建为语音，使用 L1 频谱损失和对抗声码器损失的组合。
- 两个阶段共同优化，但文本仅作为监督信号出现；在推理时根本不出现。
推理
- 输入：原始源音频。
- 输出：合成的目标音频，单次前向传播生成——无需中间转录或独立的 TTS 步骤。

结果与发现

语言对	指标 (ASR‑BLEU)	相对提升 vs. 先前 SOTA
德语 → 英语	25.17	+27 %
西班牙语 → 英语	29.86	+14 %
法语 → 英语（多语言）	27.4（约）	与专用双语模型相当

说话者保留：主观听感测试显示，声纹相似度分数高于级联的 ASR‑MT‑TTS 流水线。
数据规模：性能随单语语音‑文本数据量的增加呈对数增长，证明随着公共语音数据集的增多，该方法仍可持续提升。
单模型多语言：同一 RosettaSpeech 模型无需语言特定微调即可处理三种源语言到英语的翻译，简化了部署。

实际意义

降低数据门槛：企业现在可以通过利用丰富的单语语音录音和现有的 MT 模型，为低资源语言构建 S2ST 服务，避免昂贵的平行语音采集。
简化技术栈：部署单一端到端模型可降低延迟、内存占用和工程开销，相较于传统的级联 ASR‑MT‑TTS 流水线更为高效。
实时保留声纹的翻译：直接的语音‑语音输出保留说话者音色，适用于实时会议、配音和需要身份识别的辅助工具等场景。
可扩展的多语言产品：通过添加更多单语数据即可扩展到其他源语言，对全球平台（如视频流媒体、客服）具有吸引力。

局限性与未来工作

依赖高质量文本 MT：伪平行文本对的质量上限了最终的翻译表现；MT 步骤的错误会传播到语音输出。
说话者变化处理：虽然声纹保留优于级联系统，但极端口音或噪声录音仍会导致质量下降。
评估范围：基准主要聚焦于欧洲语言；仍需在真正的低资源或声调语言上进行更广泛的测试。
未来方向：作者提出的方向包括：引入自训练循环在无需外部 MT 的情况下细化桥接层，探索多语言声码器实现多对多翻译，及扩展框架以处理代码切换或多模态输入。

作者

Zhisheng Zheng
Xiaohang Sun
Tuan Dinh
Abhishek Yanamandra
Abhinav Jain
Zhu Liu
Sunil Hadap
Vimal Bhat
Manoj Aggarwal
Gerard Medioni
David Harwath

论文信息

arXiv ID: 2511.20974v1
分类: eess.AS, cs.CL, cs.LG
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] RosettaSpeech：零样本语音到语音翻译（单语数据）

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文