[Paper] CD4LM：一致性蒸馏与自适应解码用于扩散语言模型

发布: 2周前 (2026年1月6日 GMT+8 00:09)

7 min read

原文: arXiv

Source: arXiv - 2601.02236v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

论文 “CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models” 解决了现代语言生成中的一个核心瓶颈：自回归解码导致的延迟。通过重新思考扩散语言模型（DLM）的训练和解码方式，作者提出了一个框架，能够以高度并行的方式生成文本，同时保持与最先进的自回归模型相当的质量。

关键贡献

Discrete‑Space Consistency Distillation (DSCD)： 一种新颖的训练目标，迫使“学生”扩散模型变得 轨迹不变，即它能够将任何噪声中间状态直接映射到干净的 token 分布。
Confidence‑Adaptive Decoding (CAD)： 一种推理算法，监控 token 级别的置信度，并对高不确定性 token 动态跳过扩散步骤，显著降低函数评估次数。
Empirical Pareto‑frontier improvement： 在一系列数学、代码和推理基准（如 GSM8K、MBPP）上，CD4LM 相比强基线实现了 3–5 倍的实际时间加速，同时匹配或超越其准确率。
Open‑source implementation： 作者发布了代码和预训练检查点，使实践者能够轻松将 CD4LM 集成到现有流水线中。

Source: …

方法论

扩散语言建模入门
- 传统的扩散模型通过对离散 token 序列进行迭代去噪来生成文本，从随机噪声开始，逐步逼近干净的句子。每一次去噪都是一次独立的神经网络调用，这使得推理成本较高。
一致性蒸馏
- 与在固定时间步预测下一个 token（常见的“局部”损失）不同，DSCD 训练一个学生模型，使其无论已经执行了多少扩散步骤，都能产生相同的输出。
- 具体而言，教师模型运行完整的扩散轨迹；学生模型被要求将任意中间噪声状态（例如第 2 步、5 步或 10 步之后）直接映射到最终的干净分布。这种“轨迹不变性”赋予学生模型对跳过步骤的内在鲁棒性。
自适应解码
- 在生成过程中，CAD 为每个 token 计算置信度分数（例如最大 softmax 概率）。
- 置信度超过可配置阈值的 token 将被冻结——解码器停止对它们进行细化，等同于在多个扩散步骤上“跳跃”。
- 置信度较低的 token 继续被细化，以确保句子中较难的部分仍得到足够的计算。
并行生成
- 由于扩散过程一次作用于整个序列（而非逐 token），CAD 能利用 GPU 批量并行，加速实际运行时间。

Results & Findings

基准	基准 (LLaDA)	CD4LM 加速	准确率 (↑)
GSM8K (math)	78.4 %	5.18× wall‑clock	≈ 78 % (parity)
MBPP (code)	71.2 %	3.62× mean	+1.3 %
HumanEval (code)	64.5 %	3.8×	+0.8 %
MATH (hard math)	45.1 %	4.1×	+0.5 %

质量保持： 即使对高置信度的 token 跳过高达 80 % 的扩散步骤，最终输出在统计上仍与完整步骤基准不可区分。
效率前沿： 在准确率‑效率图上，CD4LM 主导所有先前的基于扩散和自回归的方法，建立了新的帕累托最优区域。
消融实验： 移除 DSCD（即使用标准扩散损失）导致 CAD 在仅几次跳过后即崩溃，证实轨迹不变性对安全加速至关重要。

实际影响

Low‑latency AI services: 聊天机器人、代码助手以及实时推理工具现在可以利用扩散模型，而无需承担自回归解码通常带来的数秒延迟。
Cost reduction on cloud GPUs: 每生成一个 token 所需的前向传播次数减少，直接转化为更低的计算费用，尤其是在高吞吐量工作负载（例如批量生成文档或测试用例）下。
Robustness to variable compute budgets: CAD 的置信阈值可以即时调节，使服务在流量高峰期间能够以极小的质量损失换取更快的速度。
Simplified deployment: 由于模型仍然是单次前向的神经网络（没有外部的 token 级调度器），现有的推理框架（TensorRT、ONNX Runtime）可以以最小的工程工作量集成 CD4LM。

限制与未来工作

离散 token 空间假设: DSCD 目前针对 token 级别的扩散设计；将其扩展到子词或字符级别的空间可能需要额外的技巧。
置信度校准: 自适应跳过依赖于 softmax 概率，但在某些领域（例如高度专业的术语）可能校准不准确。更好的不确定性估计器可以提升鲁棒性。
向大规模模型扩展: 实验使用的模型规模最高约为 2 B 参数。将 DSCD 和 CAD 扩展到超过 10 B 参数的规模可能会出现新的稳定性挑战。
更广泛的模态: 作者指出一致性蒸馏原理可能对图像或音频的扩散模型有益，但具体实验留待未来工作。

如果您有兴趣自行尝试 CD4LM，作者提供了可直接运行的 Docker 镜像和用于复现基准测试的脚本。将其接入您现有的生成流水线，即可立即开始测量延迟提升！

作者

Yihao Liang
Ze Wang
Hao Chen
Ximeng Sun
Jialian Wu
Xiaodong Yu
Jiang Liu
Emad Barsoum
Zicheng Liu
Niraj K. Jha

论文信息

arXiv ID: 2601.02236v1
分类: cs.CL
出版日期: 2026年1月5日
PDF: 下载 PDF

[Paper] CD4LM：一致性蒸馏与自适应解码用于扩散语言模型

概述

关键贡献

方法论

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

概述

关键贡献

方法论

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？ 对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析