[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

发布: 3天前 (2026年2月27日 GMT+8 01:04)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23225v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文，并保持原有的格式、Markdown 语法以及技术术语不变。

概述

扩散语言模型（Diffusion Language Models，DLM）被宣传为一种并行生成文本的方法，能够规避主导大多数现代生成器的缓慢左到右（自回归）瓶颈。然而，在实践中，许多快速的 DLM 仍然表现得像自回归模型，尤其是在使用常规的预训练语料库和链式思考（Chain‑of‑Thought，CoT）数据进行训练时。本文指出了导致这种情况的原因，并提出了一种以数据为中心的修复方案——NAP（Non‑Autoregressive Parallel DLMs，非自回归并行 DLM）——通过重塑训练数据，使其更好地匹配真正的并行解码。

关键贡献

对 AR‑类漂移的诊断: 表明扩散目标与标准语言数据（包括长链式思考示例）的高度顺序结构之间的不匹配，会推动大型语言模型倾向于左到右解码。
NAP 框架: 引入一个简单而有效的数据策划流水线，生成 独立推理轨迹 并将其与 并行强制解码 调度配对，鼓励在每个扩散步骤进行多标记更新。
对数学推理的实证验证: 证明在并行解码时，经过 NAP 训练的 DLM 在多个数学推理基准上优于基线扩散模型，且并行度提升时收益更大。
开源发布: 提供代码和策划好的数据集（https://github.com/pixeli99/NAP），以实现可复现性并促进进一步研究。

方法论

问题表述: 扩散模型通过迭代去噪潜在表示来生成序列。作者观察到，在训练过程中，损失主要由预测链中下一个标记主导，这隐式地鼓励了从左到右的更新。
以数据为中心的重新设计 (NAP):
- 轨迹提取: 从已有的 CoT 示例中，他们将一条长推理链拆分为若干 短的、独立的 子链，这些子链可以独立求解。
- 并行强制监督: 在训练时，模型被要求同时预测子链的所有标记，而不是一次一个，并且调整扩散调度以使用更大的去噪步长，从而并行更新多个位置。
训练流水线: 使用与之前 DLM 相同的扩散架构；仅监督信号发生变化。没有架构修改或额外参数引入。
评估: 将标准扩散模型（在原始 CoT 数据上训练）与 NAP 训练的模型在三个数学推理数据集（如 GSM‑8K、MathQA）上进行比较。解码时使用不同程度的并行度（2 路、4 路、8 路）。

Results & Findings

Model	Decoding mode	Accuracy (↑)	Speedup vs. AR
Baseline DLM (standard CoT)	Fully parallel (4‑way)	42.1 %	1.3×
NAP‑trained DLM	Fully parallel (4‑way)	48.7 %	1.8×
NAP‑trained DLM	Fully parallel (8‑way)	51.3 %	2.4×

性能差距随并行度提升而扩大： 随着每个扩散步骤更新的 token 数量增加，NAP 能保持甚至提升准确率，而基线模型的准确率会显著下降。
延迟降低： 在单块 V100 GPU 上，8 路并行解码相比同等模型规模的左到右（AR）解码，端到端延迟降低约 60 %。
定性分析： 示例生成表明，NAP 的并行轨迹能够产生连贯的多步推理，而不会出现 AR 类扩散输出中常见的“阶梯”效应。

实际意义

对延迟敏感的应用实现更快推理： 聊天机器人、代码助手或设备端语言工具可以受益于降低的同步开销，尤其是在 GPU 或擅长批处理操作的专用加速器上运行时。
更好的硬件利用率： 并行解码符合现代 AI 芯片的 SIMD/SME 执行模型，能够在不扩大模型规模的情况下提升吞吐量。
以数据为中心的工程实践： 该工作表明，在重新设计模型架构之前，实践者应审查训练数据是否存在顺序偏差。对数据集进行策划或增强，使其包含更多独立子任务，可在现有扩散流水线中释放并行性。
部署更简便： 由于 NAP 不需要新层或推理技巧，现有基于扩散的生成服务只需替换为策划好的数据集并调整训练计划，即可采用该方法。

限制与未来工作

范围仅限于数学推理： 实验聚焦于结构化问题求解任务；NAP 在开放式生成（例如故事创作、对话）上的表现仍不明确。
数据准备开销： 为缺乏自然模块化示例的领域策划独立推理轨迹可能需要大量人工工作。自动化轨迹提取仍是一个待解决的挑战。
向更大模型的扩展： 本研究使用的是中等规模的扩散模型；同样的提升是否适用于数十亿参数的大型语言模型尚未验证。
未来方向： 作者提出探索逐步增加并行度的课程学习、将 NAP 与多模态扩散模型结合，以及开发自监督方法以在原始文本中发现可并行化的子结构。

作者

Pengxiang Li
Dilxat Muhtar
Lu Yin
Tianlong Chen
Shiwei Liu

论文信息

arXiv ID: 2602.23225v1
分类: cs.CL, cs.AI
发表时间: 2026年2月26日
PDF: 下载 PDF

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

概述

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型

[Paper] 微调不忘记上下文学习：线性注意力模型的理论分析