[Paper] RosettaSpeech:零样本语音到语音翻译(单语数据)

发布: (2025年11月26日 GMT+8 10:02)
7 min read
原文: arXiv

Source: arXiv - 2511.20974v1

概览

RosettaSpeech 解决了语音到语音翻译(S2ST)中最大的瓶颈之一:大规模平行语音语料的几乎缺失。通过仅在单语语音‑文本数据上进行训练,并利用已有的文本‑文本机器翻译(MT)模型,作者构建了一个 零样本、端到端的 S2ST 系统,能够直接将源语音翻译为目标语音并保留说话者的声音。该方法简化了流水线,同时在广泛使用的基准上仍然达到最先进的性能。

主要贡献

  • 零样本 S2ST 框架:无需平行语音‑语音数据,仅需单语语音‑文本对加上基于文本的 NMT 模型。
  • 统一的端到端架构:推理时模型直接将源音频映射到目标音频,省去中间的文本生成和独立的 TTS 模块。
  • 多对一多语言能力(法语、西班牙语、德语 → 英语)使用单一模型,展示了跨语言的可扩展性。
  • 全面的规模分析:展示了增加单语语音‑文本数据量如何提升翻译质量。
  • 最先进的结果在 CVSS‑C 基准上(ASR‑BLEU = 25.17 对于 DE→EN,29.86 对于 ES→EN),相较于之前的多阶段流水线提升了 14‑27 %。

方法论

  1. 数据准备

    • 为每种语言收集大规模的 语音‑文本 对(例如 LibriSpeech、Common Voice)。
    • 使用高质量的文本‑文本 NMT 系统从单语转录中生成 伪平行 的源‑目标文本对。
  2. 模型架构

    • 编码器:自监督语音编码器(如 wav2vec 2.0)将原始音频转换为语言无关的潜在表示。
    • 跨模态桥接:轻量级 Transformer 将语音潜在空间与 NMT 模型学习的文本潜在空间对齐。
    • 解码器:类似神经声码器的解码器(如 HiFi‑GAN)直接从对齐的潜在向量合成目标语言语音,保留说话者特征。
  3. 训练目标

    • 语音‑文本损失:首先微调编码器以预测源转录(标准 ASR 损失)。
    • 文本‑语音损失:桥接层和解码器被训练以将 NMT 生成的目标转录重建为语音,使用 L1 频谱损失和对抗声码器损失的组合。
    • 两个阶段共同优化,但 文本 仅作为监督信号出现;在推理时根本不出现。
  4. 推理

    • 输入:原始源音频。
    • 输出:合成的目标音频,单次前向传播生成——无需中间转录或独立的 TTS 步骤。

结果与发现

语言对指标 (ASR‑BLEU)相对提升 vs. 先前 SOTA
德语 → 英语25.17+27 %
西班牙语 → 英语29.86+14 %
法语 → 英语(多语言)27.4(约)与专用双语模型相当
  • 说话者保留:主观听感测试显示,声纹相似度分数高于级联的 ASR‑MT‑TTS 流水线。
  • 数据规模:性能随单语语音‑文本数据量的增加呈对数增长,证明随着公共语音数据集的增多,该方法仍可持续提升。
  • 单模型多语言:同一 RosettaSpeech 模型无需语言特定微调即可处理三种源语言到英语的翻译,简化了部署。

实际意义

  • 降低数据门槛:企业现在可以通过利用丰富的单语语音录音和现有的 MT 模型,为低资源语言构建 S2ST 服务,避免昂贵的平行语音采集。
  • 简化技术栈:部署单一端到端模型可降低延迟、内存占用和工程开销,相较于传统的级联 ASR‑MT‑TTS 流水线更为高效。
  • 实时保留声纹的翻译:直接的语音‑语音输出保留说话者音色,适用于实时会议、配音和需要身份识别的辅助工具等场景。
  • 可扩展的多语言产品:通过添加更多单语数据即可扩展到其他源语言,对全球平台(如视频流媒体、客服)具有吸引力。

局限性与未来工作

  • 依赖高质量文本 MT:伪平行文本对的质量上限了最终的翻译表现;MT 步骤的错误会传播到语音输出。
  • 说话者变化处理:虽然声纹保留优于级联系统,但极端口音或噪声录音仍会导致质量下降。
  • 评估范围:基准主要聚焦于欧洲语言;仍需在真正的低资源或声调语言上进行更广泛的测试。
  • 未来方向:作者提出的方向包括:引入自训练循环在无需外部 MT 的情况下细化桥接层,探索多语言声码器实现多对多翻译,及扩展框架以处理代码切换或多模态输入。

作者

  • Zhisheng Zheng
  • Xiaohang Sun
  • Tuan Dinh
  • Abhishek Yanamandra
  • Abhinav Jain
  • Zhu Liu
  • Sunil Hadap
  • Vimal Bhat
  • Manoj Aggarwal
  • Gerard Medioni
  • David Harwath

论文信息

  • arXiv ID: 2511.20974v1
  • 分类: eess.AS, cs.CL, cs.LG
  • 发表时间: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »