[Paper] Diffusion Language Models for 语音识别

发布: 3周前 (2026年4月15日 GMT+8 23:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.14001v1

概述

本文探讨了 diffusion language models (DLMs)——一种在双向上下文处理方面表现出色的新型生成模型——如何用于提升 automatic speech recognition (ASR)。通过改编两种 DLM 变体，masked diffusion language models (MDLM) 和 uniform‑state diffusion models (USDM)，作者展示了如何对 ASR 假设进行重新打分，甚至与 CTC 声学模型进行联合解码，从而实现显著的 word‑error‑rate (WER) 降低。

关键贡献

全面的MDLM和USDM集成到ASR流水线的配方，涵盖数据准备、训练和推理。
联合解码算法，在每一步将帧级CTC概率与标签级USDM概率融合，生成受声学和语言知识双重优势的混合候选。
在标准语音语料库上进行的大规模实证评估，表明MDLM和USDM均优于传统n‑gram和基于Transformer的重打分基线。
开源发布所有代码、模型检查点和训练脚本，实现可复现性并促进社区快速采用。

方法论

扩散语言建模
- 扩散模型通过逐步“去噪”噪声的 token 序列来生成文本。
- MDLM 采用 masked diffusion（掩码扩散）范式：对一部分 token 进行掩码，模型学习重建这些 token，类似于 BERT，但加入了扩散过程。
- USDM 使用 uniform‑state diffusion（均匀状态扩散）调度，在所有扩散步骤中每个 token 被同等对待，从而简化了训练动态。
对 ASR 假设进行重打分
- ASR 系统首先使用传统声学模型（如 CTC 或混合 HMM‑DNN）生成 N‑best 列表（或 lattice）。
- 每个候选由扩散语言模型打分：模型计算整个 token 序列的对数概率，并与声学得分结合（通常通过对数线性插值）。
CTC + USDM 的联合解码
- 作者提出一种 紧耦合 方式，取代两阶段流水线（解码 → 重打分）：在每个解码步骤，CTC 的帧级分布 (p_{\text{CTC}}(t|x)) 与 USDM 的标签级分布 (p_{\text{USDM}}(y|t)) 相乘（或在对数空间相加）。
- 这产生 组合概率 用于引导束搜索，使解码器能够生成原始 N‑best 列表中不存在的新假设。
训练细节
- MDLM 与 USDM 均在大规模文本语料（例如 LibriSpeech LM 数据）上使用标准扩散损失进行训练。
- 声学 CTC 模型则在配对的音频‑文本数据上单独训练。无需联合训练，从而保持了方法的模块化。

结果与发现

模型 / 设置	WER (dev)	WER (test)
基线 CTC（无 LM）	7.8 %	8.2 %
CTC + 4‑gram 语言模型	6.9 %	7.3 %
CTC + Transformer 语言模型（浅层）	6.4 %	6.8 %
CTC + MDLM 重打分	6.1 %	6.5 %
CTC + USDM 重打分	5.9 %	6.2 %
CTC + USDM 联合解码	5.5 %	5.8 %

两种 diffusion 语言模型 均优于传统 n‑gram 和 Transformer 重打分，提升幅度为 0.3–0.7 % 的绝对 WER。
联合解码 策略带来 最大收益，证实在推理时将声学得分与 diffusion‑based 语言得分合并，可生成比单纯重打分更好的假设。
消融实验表明，uniform‑state diffusion 调度在训练期间更为稳定，所需的 diffusion 步数也少于 masked 变体，同时仍能提供相当的准确度。

实际意义

即插即用的改进：开发者可以在现有基于 CTC 的 ASR 服务中加入 MDLM/USDM 重新评分，而无需重新训练声学模型，从而立即提升准确率。
实时可行性：USDM 更简化的扩散调度带来更快的推理速度（相较于 MDLM 提升约 2×），使其适用于低延迟的应用场景，如语音助手或转录服务。
增强的鲁棒性：由于扩散语言模型天然地融合双向上下文，它们比左到右的自回归语言模型更好地处理嘈杂或含糊的语句，从而降低对话式 AI 中的错误峰值。
开源工具包：已发布的配方可与主流框架（ESPnet、Kaldi、PyTorch）集成，降低了研究实验室和初创公司尝试基于扩散的语言建模的门槛。

限制与未来工作

计算开销：即使是更快的 USDM 相比轻量级 n‑gram 重评分也会增加显著的延迟，这在超低延迟设备上可能不可接受。
内存占用：扩散模型在推理时需要更大的 GPU 内存，尤其是对长语句，限制了在边缘硬件上的部署。
领域适应：本文聚焦于朗读语音（LibriSpeech）；将扩散语言模型适配到高度领域特定的词汇（例如医学口述）仍是一个未解的挑战。
联合训练：虽然当前方法将声学模型和语言模型分离，未来工作可以探索 CTC 与扩散语言模型的端到端训练，以进一步加强声学与语言的协同。

作者已公开其代码和预训练模型，您可以立即在自己的 ASR 流程中尝试扩散语言模型。

作者

Davyd Naveriani
Albert Zeyer
Ralf Schlüter
Hermann Ney

论文信息

arXiv ID: 2604.14001v1
分类: cs.CL, cs.AI, cs.LG, cs.NE
出版日期: 2026年4月15日
PDF: 下载 PDF

[Paper] Diffusion Language Models for 语音识别

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

[Paper] 检测与抑制 Reward Hacking 的 Gradient Fingerprints