[Paper] Diffusion Language Models for 语音识别
发布: (2026年4月15日 GMT+8 23:46)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.14001v1
概述
本文探讨了 diffusion language models (DLMs)——一种在双向上下文处理方面表现出色的新型生成模型——如何用于提升 automatic speech recognition (ASR)。通过改编两种 DLM 变体,masked diffusion language models (MDLM) 和 uniform‑state diffusion models (USDM),作者展示了如何对 ASR 假设进行重新打分,甚至与 CTC 声学模型进行联合解码,从而实现显著的 word‑error‑rate (WER) 降低。
关键贡献
- 全面的MDLM和USDM集成到ASR流水线的配方,涵盖数据准备、训练和推理。
- 联合解码算法,在每一步将帧级CTC概率与标签级USDM概率融合,生成受声学和语言知识双重优势的混合候选。
- 在标准语音语料库上进行的大规模实证评估,表明MDLM和USDM均优于传统n‑gram和基于Transformer的重打分基线。
- 开源发布所有代码、模型检查点和训练脚本,实现可复现性并促进社区快速采用。
方法论
-
扩散语言建模
- 扩散模型通过逐步“去噪”噪声的 token 序列来生成文本。
- MDLM 采用 masked diffusion(掩码扩散)范式:对一部分 token 进行掩码,模型学习重建这些 token,类似于 BERT,但加入了扩散过程。
- USDM 使用 uniform‑state diffusion(均匀状态扩散)调度,在所有扩散步骤中每个 token 被同等对待,从而简化了训练动态。
-
对 ASR 假设进行重打分
- ASR 系统首先使用传统声学模型(如 CTC 或混合 HMM‑DNN)生成 N‑best 列表(或 lattice)。
- 每个候选由扩散语言模型打分:模型计算整个 token 序列的对数概率,并与声学得分结合(通常通过对数线性插值)。
-
CTC + USDM 的联合解码
- 作者提出一种 紧耦合 方式,取代两阶段流水线(解码 → 重打分):在每个解码步骤,CTC 的帧级分布 (p_{\text{CTC}}(t|x)) 与 USDM 的标签级分布 (p_{\text{USDM}}(y|t)) 相乘(或在对数空间相加)。
- 这产生 组合概率 用于引导束搜索,使解码器能够生成原始 N‑best 列表中不存在的新假设。
-
训练细节
- MDLM 与 USDM 均在大规模文本语料(例如 LibriSpeech LM 数据)上使用标准扩散损失进行训练。
- 声学 CTC 模型则在配对的音频‑文本数据上单独训练。无需联合训练,从而保持了方法的模块化。
结果与发现
| 模型 / 设置 | WER (dev) | WER (test) |
|---|---|---|
| 基线 CTC(无 LM) | 7.8 % | 8.2 % |
| CTC + 4‑gram 语言模型 | 6.9 % | 7.3 % |
| CTC + Transformer 语言模型(浅层) | 6.4 % | 6.8 % |
| CTC + MDLM 重打分 | 6.1 % | 6.5 % |
| CTC + USDM 重打分 | 5.9 % | 6.2 % |
| CTC + USDM 联合解码 | 5.5 % | 5.8 % |
- 两种 diffusion 语言模型 均优于传统 n‑gram 和 Transformer 重打分,提升幅度为 0.3–0.7 % 的绝对 WER。
- 联合解码 策略带来 最大收益,证实在推理时将声学得分与 diffusion‑based 语言得分合并,可生成比单纯重打分更好的假设。
- 消融实验表明,uniform‑state diffusion 调度在训练期间更为稳定,所需的 diffusion 步数也少于 masked 变体,同时仍能提供相当的准确度。
实际意义
- 即插即用的改进:开发者可以在现有基于 CTC 的 ASR 服务中加入 MDLM/USDM 重新评分,而无需重新训练声学模型,从而立即提升准确率。
- 实时可行性:USDM 更简化的扩散调度带来更快的推理速度(相较于 MDLM 提升约 2×),使其适用于低延迟的应用场景,如语音助手或转录服务。
- 增强的鲁棒性:由于扩散语言模型天然地融合双向上下文,它们比左到右的自回归语言模型更好地处理嘈杂或含糊的语句,从而降低对话式 AI 中的错误峰值。
- 开源工具包:已发布的配方可与主流框架(ESPnet、Kaldi、PyTorch)集成,降低了研究实验室和初创公司尝试基于扩散的语言建模的门槛。
限制与未来工作
- 计算开销:即使是更快的 USDM 相比轻量级 n‑gram 重评分也会增加显著的延迟,这在超低延迟设备上可能不可接受。
- 内存占用:扩散模型在推理时需要更大的 GPU 内存,尤其是对长语句,限制了在边缘硬件上的部署。
- 领域适应:本文聚焦于朗读语音(LibriSpeech);将扩散语言模型适配到高度领域特定的词汇(例如医学口述)仍是一个未解的挑战。
- 联合训练:虽然当前方法将声学模型和语言模型分离,未来工作可以探索 CTC 与扩散语言模型的端到端训练,以进一步加强声学与语言的协同。
作者已公开其代码和预训练模型,您可以立即在自己的 ASR 流程中尝试扩散语言模型。
作者
- Davyd Naveriani
- Albert Zeyer
- Ralf Schlüter
- Hermann Ney
论文信息
- arXiv ID: 2604.14001v1
- 分类: cs.CL, cs.AI, cs.LG, cs.NE
- 出版日期: 2026年4月15日
- PDF: 下载 PDF