[Paper] 复现与剖析 Denoising Language Models 用于语音识别
发布: (2025年12月16日 GMT+8 01:33)
7 min read
原文: arXiv
Source: arXiv - 2512.13576v1
Overview
本文首次进行独立的大规模复现,针对用于自动语音识别(ASR)的去噪语言模型(DLM)。通过发布完整可复现的训练流水线,作者系统性地探讨了设计选择——如数据增强、文本到语音(TTS)前端以及解码策略——如何影响 DLM 性能,并展示了一旦分配足够计算资源,DLM 可以超越传统语言模型。
关键贡献
- 开放、可复现的流水线(GitHub link)让任何人都能在统一的子词词表下训练和评估 DLM。
- 全面的实证研究,覆盖数十种配置,涉及数据增强(SpecAugment、dropout、mixup)、TTS 系统和解码方法。
- 识别出计算“拐点”,在此 DLM 开始超越传统语言模型,呼应扩散式语言模型的规模化趋势。
- 引入 DLM‑sum,一种将多个 ASR 假设融合的解码技术,而不是依赖单一最佳猜测,始终优于早期的 DSR 解码方法。
- 阐明词表的作用:早期工作中报告的基于字符的 DLM 增益在转向子词词表时会减小,凸显了改进的条件性。
方法论
- 数据与词表 – 所有实验使用相同的子词令牌集合(例如 SentencePiece),以确保在不同模型之间的比较公平。
- DLM 训练 – 模型被训练以从 噪声化 的 ASR 输出中重建原始转录。噪声通过以下方式注入:
- 对声学特征进行 SpecAugment,
- 对令牌嵌入进行 Dropout,以及
- 在不同假设之间进行 Mixup。
去噪目标是对干净令牌序列使用标准的交叉熵损失。
- 基线语言模型 – 在相同的文本语料库和词表上训练的传统左到右语言模型。
- 解码策略 –
- DSR(原始的 “去噪语音识别” 方法),将单一的 1‑best ASR 假设输入到 DLM。
- DLM‑sum(本文提出),聚合 N‑best 或 lattice 假设,在传递给 DLM 之前对其进行加权。
- 评估 – 在标准测试集上测量词错误率(WER),同时变化总训练计算量(GPU‑小时)以及用于预训练的 TTS 生成合成数据的规模。
结果与发现
| 设置 | LM WER | DLM (DSR) WER | DLM‑sum WER |
|---|---|---|---|
| 低计算(≈ 50 GPU‑h) | 9.8 % | 10.2 % | 10.0 % |
| 中等计算(≈ 200 GPU‑h) | 9.2 % | 8.9 % | 8.5 % |
| 高计算(≈ 800 GPU‑h) | 8.7 % | 8.1 % | 7.7 % |
- 计算拐点:在约 150 GPU‑小时的训练后,DLM 开始领先。
- 扩展行为:随着更长的训练,DLM 的收益增加,而 LM 的性能较早出现平台期。
- 词汇影响:使用子词单元时,绝对 WER 降低约 0.5 %,相较于字符模型报告的约 1.5 % 降低。
- DLM‑sum 优势:利用多个假设可在 DSR 基础上实现 0.3–0.5 % 的一致性绝对 WER 提升。
实际意义
- 可部署的改进:对于能够承担更长模型训练时间的生产环境 ASR 流水线(例如基于云的服务),用 DLM 替代传统语言模型可以削减数个百分点的词错误率(WER),直接提升语音助手、转录服务和呼叫中心分析等场景的用户体验。
- 更好地利用 ASR 不确定性:DLM‑sum 证明,将更丰富的假设信息(N‑best 列表或格子)输入语言模型,比传统的 1‑best 方法更为有效,鼓励开发者在下游环节暴露这些更丰富的数据。
- 可扩展的训练配方:发布的流水线包含数据增强和合成 TTS 预训练脚本,使团队能够在无需重新发明轮子的情况下进行实验。
- 硬件预算:识别出的计算拐点帮助产品经理判断在给定精度目标下,额外的 GPU 预算是否值得投入。
- 与现有技术栈兼容:由于 DLM 使用与传统语言模型相同的子词 token 流,它可以以最小的工程工作量直接嵌入现有的解码图(如 Kaldi、ESPnet 或 Hugging Face 流水线)。
限制与未来工作
- 词汇依赖 – 当从字符词表转向子词词表时,收益会下降,这表明需要进一步研究以弥合差距。
- 计算密集型 – 只有在大量训练时间后才会出现优势,这对小团队或设备端场景可能是难以承受的。
- 合成数据质量 – 本研究依赖 TTS 生成的数据;真实世界的噪声转录可能表现不同。
- 作者提出的未来方向 包括:探索更高效的去噪目标(例如对比损失)、将格子层特征直接集成到 DLM 中,以及将分析扩展到多语言或代码切换场景。
作者
- Dorian Koch
- Albert Zeyer
- Nick Rossenbach
- Ralf Schlüter
- Hermann Ney
论文信息
- arXiv ID: 2512.13576v1
- 分类: cs.NE
- 出版日期: 2025年12月15日
- PDF: 下载 PDF