[论文] 在上下文中说话:通过对比学习实现语音上下文对齐的多语言ASR

发布: (2026年3月7日 GMT+8 01:37)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.06505v1

概述

本文提出了 Speak in Context,一种多语言自动语音识别(ASR)系统,能够处理数十种语言和口音,并利用 上下文线索(如对话历史或特定领域关键词)来提升识别效果。通过将冻结的预训练语音编码器与仅解码器的语言模型通过一个小型投影层和对比学习对齐损失相结合,作者实现了模块化、即插即用的架构,能够持续提升转录质量——在大型真实对话数据集上提升超过 5 %。

关键贡献

  • 多语言、上下文感知的 ASR 框架,可在 11 种语言和 5 种英语方言之间工作,无需对整个主干模型重新训练。
  • 模块化设计:冻结的语音编码器 + 仅解码器的语言模型 + 轻量投影,保留大型预训练模型的优势,同时保持低计算成本。
  • 结构化上下文提示(对话轮次、偏置词等),可在推理时注入以引导转录。
  • 对比学习目标,将语音嵌入与上下文嵌入对齐到共享空间,提供一种原则性的跨模态交互方式。
  • 广泛的真实场景评估,在 >1,500 h 的对话语音上进行,展示了在不同语言和上下文类型上的一致提升。

方法论

  1. 骨干组件

    • 语音编码器:一个预训练、冻结的模型(例如 wav2vec‑2.0),将原始音频转换为高维嵌入序列。
    • 语言模型:仅解码器的 Transformer(例如 GPT‑Neo),从文本提示生成 token 流。
  2. 投影模块

    • 一个小的线性层(加可选的 layer‑norm)将语音编码器的输出映射到语言模型的嵌入空间,使两个模块在不微调任何骨干的情况下相互通信。
  3. 上下文表示

    • 上下文像其他文本一样被分词(对话历史、偏置词、任务指令),并作为 prompt 在音频驱动的 token 之前喂入语言模型。
  4. 对比对齐损失

    • 对于每个训练步骤,模型采样一个 对(语音嵌入 ↔ 其真实上下文)和若干 对(语音 ↔ 不匹配的上下文)。
    • 对比损失(InfoNCE)使正对的余弦相似度提升,同时拉开负对的距离,形成一个语音与其相关上下文相近的联合嵌入空间。
  5. 训练方案

    • 语音编码器和语言模型保持冻结;仅更新投影层和对比损失头。
    • 仍对转录输出使用标准的 CTC 或交叉熵 ASR 损失,使系统同时学习准确的语音转文本映射和跨模态对齐。

Results & Findings

指标基线(无上下文)+ 结构化上下文+ 对比对齐
平均词错误率降低(11种语言)≈ 3 % 绝对≈ 5 % 绝对
最佳情况语言(例如,普通话)12.8 %10.2 %9.5 %
英语方言(5)7.4 %5.9 %5.2 %
  • 上下文很重要:添加对话历史或偏置词汇始终降低了所有语言的词错误率(WER)。
  • 对比对齐增值:额外的损失在原始上下文提示的基础上再提升约 2 % 绝对的 WER,证明共享嵌入空间提升了模型“倾听”相关线索的能力。
  • 模块化有效:冻结大型预训练编码器节省了 GPU 内存和训练时间(≈ 30 % 更少计算),同时仍实现了最先进的多语言性能。

Practical Implications

  • 即插即用的多语言 ASR:公司可以采用仅投影的微调步骤,将现有的语音转文本服务扩展到新语言或方言,而无需对庞大模型进行昂贵的重新训练。
  • 面向特定领域词汇的动态偏置:通过将偏置词(例如产品名称、医学术语)作为提示输入,开发者可以即时提升对稀有或超出词表的词汇的识别效果。
  • 对话代理与呼叫中心分析:能够将先前的对话轮次作为上下文输入,使多轮交互中的转录更为准确,降低下游自然语言处理错误。
  • 资源高效部署:由于大型编码器保持冻结,推理可以在不同设备之间分配(例如边缘设备的语音编码器、云端托管的语言模型),实现低延迟、保护隐私的部署。

限制与未来工作

  • Context length: 当前提示处理受限于 LM 的最大上下文窗口 (≈ 2 k tokens),可能截断非常长的对话。
  • Contrastive loss scaling: 对齐收益在一定数量的负样本后趋于平稳;更复杂的采样或记忆库技术可能带来进一步提升。
  • Language coverage: 虽然已测试 11 种语言和多种英语方言,但低资源语言缺乏预训练编码器仍是未解挑战。
  • Real‑time latency: 添加投影和对比对齐会产生适度开销;未来工作可探索量化或蒸馏,以满足严格的实时需求。

Speak in Context 展示了一个轻量级、对比对齐的语音与语言模型桥接方式,能够在无需大规模端到端重新训练的情况下,解锁多语言、上下文感知的 ASR——这一方法已可供众多开发者采用,以构建更智能的语音交互产品。

作者

  • Yuchen Zhang
  • Haralambos Mouratidis
  • Ravi Shekhar

论文信息

  • arXiv ID: 2603.06505v1
  • 类别: cs.CL
  • 出版时间: 2026年3月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »