[Paper] CD4LM:一致性蒸馏与自适应解码用于扩散语言模型
发布: (2026年1月6日 GMT+8 00:09)
7 min read
原文: arXiv
Source: arXiv - 2601.02236v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
概述
论文 “CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models” 解决了现代语言生成中的一个核心瓶颈:自回归解码导致的延迟。通过重新思考扩散语言模型(DLM)的训练和解码方式,作者提出了一个框架,能够以高度并行的方式生成文本,同时保持与最先进的自回归模型相当的质量。
关键贡献
- Discrete‑Space Consistency Distillation (DSCD): 一种新颖的训练目标,迫使“学生”扩散模型变得 轨迹不变,即它能够将任何噪声中间状态直接映射到干净的 token 分布。
- Confidence‑Adaptive Decoding (CAD): 一种推理算法,监控 token 级别的置信度,并对高不确定性 token 动态跳过扩散步骤,显著降低函数评估次数。
- Empirical Pareto‑frontier improvement: 在一系列数学、代码和推理基准(如 GSM8K、MBPP)上,CD4LM 相比强基线实现了 3–5 倍的实际时间加速,同时匹配或超越其准确率。
- Open‑source implementation: 作者发布了代码和预训练检查点,使实践者能够轻松将 CD4LM 集成到现有流水线中。
Source: …
方法论
-
扩散语言建模入门
- 传统的扩散模型通过对离散 token 序列进行迭代去噪来生成文本,从随机噪声开始,逐步逼近干净的句子。每一次去噪都是一次独立的神经网络调用,这使得推理成本较高。
-
一致性蒸馏
- 与在固定时间步预测下一个 token(常见的“局部”损失)不同,DSCD 训练一个学生模型,使其无论已经执行了多少扩散步骤,都能产生相同的输出。
- 具体而言,教师模型运行完整的扩散轨迹;学生模型被要求将任意中间噪声状态(例如第 2 步、5 步或 10 步之后)直接映射到最终的干净分布。这种“轨迹不变性”赋予学生模型对跳过步骤的内在鲁棒性。
-
自适应解码
- 在生成过程中,CAD 为每个 token 计算置信度分数(例如最大 softmax 概率)。
- 置信度超过可配置阈值的 token 将被冻结——解码器停止对它们进行细化,等同于在多个扩散步骤上“跳跃”。
- 置信度较低的 token 继续被细化,以确保句子中较难的部分仍得到足够的计算。
-
并行生成
- 由于扩散过程一次作用于整个序列(而非逐 token),CAD 能利用 GPU 批量并行,加速实际运行时间。
Results & Findings
| 基准 | 基准 (LLaDA) | CD4LM 加速 | 准确率 (↑) |
|---|---|---|---|
| GSM8K (math) | 78.4 % | 5.18× wall‑clock | ≈ 78 % (parity) |
| MBPP (code) | 71.2 % | 3.62× mean | +1.3 % |
| HumanEval (code) | 64.5 % | 3.8× | +0.8 % |
| MATH (hard math) | 45.1 % | 4.1× | +0.5 % |
- 质量保持: 即使对高置信度的 token 跳过高达 80 % 的扩散步骤,最终输出在统计上仍与完整步骤基准不可区分。
- 效率前沿: 在准确率‑效率图上,CD4LM 主导所有先前的基于扩散和自回归的方法,建立了新的帕累托最优区域。
- 消融实验: 移除 DSCD(即使用标准扩散损失)导致 CAD 在仅几次跳过后即崩溃,证实轨迹不变性对安全加速至关重要。
实际影响
- Low‑latency AI services: 聊天机器人、代码助手以及实时推理工具现在可以利用扩散模型,而无需承担自回归解码通常带来的数秒延迟。
- Cost reduction on cloud GPUs: 每生成一个 token 所需的前向传播次数减少,直接转化为更低的计算费用,尤其是在高吞吐量工作负载(例如批量生成文档或测试用例)下。
- Robustness to variable compute budgets: CAD 的置信阈值可以即时调节,使服务在流量高峰期间能够以极小的质量损失换取更快的速度。
- Simplified deployment: 由于模型仍然是单次前向的神经网络(没有外部的 token 级调度器),现有的推理框架(TensorRT、ONNX Runtime)可以以最小的工程工作量集成 CD4LM。
限制与未来工作
- 离散 token 空间假设: DSCD 目前针对 token 级别的扩散设计;将其扩展到子词或字符级别的空间可能需要额外的技巧。
- 置信度校准: 自适应跳过依赖于 softmax 概率,但在某些领域(例如高度专业的术语)可能校准不准确。更好的不确定性估计器可以提升鲁棒性。
- 向大规模模型扩展: 实验使用的模型规模最高约为 2 B 参数。将 DSCD 和 CAD 扩展到超过 10 B 参数的规模可能会出现新的稳定性挑战。
- 更广泛的模态: 作者指出一致性蒸馏原理可能对图像或音频的扩散模型有益,但具体实验留待未来工作。
如果您有兴趣自行尝试 CD4LM,作者提供了可直接运行的 Docker 镜像和用于复现基准测试的脚本。将其接入您现有的生成流水线,即可立即开始测量延迟提升!
作者
- Yihao Liang
- Ze Wang
- Hao Chen
- Ximeng Sun
- Jialian Wu
- Xiaodong Yu
- Jiang Liu
- Emad Barsoum
- Zicheng Liu
- Niraj K. Jha
论文信息
- arXiv ID: 2601.02236v1
- 分类: cs.CL
- 出版日期: 2026年1月5日
- PDF: 下载 PDF