[Paper] CD4LM:一致性蒸馏与自适应解码用于扩散语言模型

发布: (2026年1月6日 GMT+8 00:09)
7 min read
原文: arXiv

Source: arXiv - 2601.02236v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

论文 “CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models” 解决了现代语言生成中的一个核心瓶颈:自回归解码导致的延迟。通过重新思考扩散语言模型(DLM)的训练和解码方式,作者提出了一个框架,能够以高度并行的方式生成文本,同时保持与最先进的自回归模型相当的质量。

关键贡献

  • Discrete‑Space Consistency Distillation (DSCD): 一种新颖的训练目标,迫使“学生”扩散模型变得 轨迹不变,即它能够将任何噪声中间状态直接映射到干净的 token 分布。
  • Confidence‑Adaptive Decoding (CAD): 一种推理算法,监控 token 级别的置信度,并对高不确定性 token 动态跳过扩散步骤,显著降低函数评估次数。
  • Empirical Pareto‑frontier improvement: 在一系列数学、代码和推理基准(如 GSM8K、MBPP)上,CD4LM 相比强基线实现了 3–5 倍的实际时间加速,同时匹配或超越其准确率。
  • Open‑source implementation: 作者发布了代码和预训练检查点,使实践者能够轻松将 CD4LM 集成到现有流水线中。

Source:

方法论

  1. 扩散语言建模入门

    • 传统的扩散模型通过对离散 token 序列进行迭代去噪来生成文本,从随机噪声开始,逐步逼近干净的句子。每一次去噪都是一次独立的神经网络调用,这使得推理成本较高。
  2. 一致性蒸馏

    • 与在固定时间步预测下一个 token(常见的“局部”损失)不同,DSCD 训练一个学生模型,使其无论已经执行了多少扩散步骤,都能产生相同的输出。
    • 具体而言,教师模型运行完整的扩散轨迹;学生模型被要求将任意中间噪声状态(例如第 2 步、5 步或 10 步之后)直接映射到最终的干净分布。这种“轨迹不变性”赋予学生模型对跳过步骤的内在鲁棒性。
  3. 自适应解码

    • 在生成过程中,CAD 为每个 token 计算置信度分数(例如最大 softmax 概率)。
    • 置信度超过可配置阈值的 token 将被冻结——解码器停止对它们进行细化,等同于在多个扩散步骤上“跳跃”。
    • 置信度较低的 token 继续被细化,以确保句子中较难的部分仍得到足够的计算。
  4. 并行生成

    • 由于扩散过程一次作用于整个序列(而非逐 token),CAD 能利用 GPU 批量并行,加速实际运行时间。

Results & Findings

基准基准 (LLaDA)CD4LM 加速准确率 (↑)
GSM8K (math)78.4 %5.18× wall‑clock≈ 78 % (parity)
MBPP (code)71.2 %3.62× mean+1.3 %
HumanEval (code)64.5 %3.8×+0.8 %
MATH (hard math)45.1 %4.1×+0.5 %
  • 质量保持: 即使对高置信度的 token 跳过高达 80 % 的扩散步骤,最终输出在统计上仍与完整步骤基准不可区分。
  • 效率前沿: 在准确率‑效率图上,CD4LM 主导所有先前的基于扩散和自回归的方法,建立了新的帕累托最优区域。
  • 消融实验: 移除 DSCD(即使用标准扩散损失)导致 CAD 在仅几次跳过后即崩溃,证实轨迹不变性对安全加速至关重要。

实际影响

  • Low‑latency AI services: 聊天机器人、代码助手以及实时推理工具现在可以利用扩散模型,而无需承担自回归解码通常带来的数秒延迟。
  • Cost reduction on cloud GPUs: 每生成一个 token 所需的前向传播次数减少,直接转化为更低的计算费用,尤其是在高吞吐量工作负载(例如批量生成文档或测试用例)下。
  • Robustness to variable compute budgets: CAD 的置信阈值可以即时调节,使服务在流量高峰期间能够以极小的质量损失换取更快的速度。
  • Simplified deployment: 由于模型仍然是单次前向的神经网络(没有外部的 token 级调度器),现有的推理框架(TensorRT、ONNX Runtime)可以以最小的工程工作量集成 CD4LM。

限制与未来工作

  • 离散 token 空间假设: DSCD 目前针对 token 级别的扩散设计;将其扩展到子词或字符级别的空间可能需要额外的技巧。
  • 置信度校准: 自适应跳过依赖于 softmax 概率,但在某些领域(例如高度专业的术语)可能校准不准确。更好的不确定性估计器可以提升鲁棒性。
  • 向大规模模型扩展: 实验使用的模型规模最高约为 2 B 参数。将 DSCD 和 CAD 扩展到超过 10 B 参数的规模可能会出现新的稳定性挑战。
  • 更广泛的模态: 作者指出一致性蒸馏原理可能对图像或音频的扩散模型有益,但具体实验留待未来工作。

如果您有兴趣自行尝试 CD4LM,作者提供了可直接运行的 Docker 镜像和用于复现基准测试的脚本。将其接入您现有的生成流水线,即可立即开始测量延迟提升!

作者

  • Yihao Liang
  • Ze Wang
  • Hao Chen
  • Ximeng Sun
  • Jialian Wu
  • Xiaodong Yu
  • Jiang Liu
  • Emad Barsoum
  • Zicheng Liu
  • Niraj K. Jha

论文信息

  • arXiv ID: 2601.02236v1
  • 分类: cs.CL
  • 出版日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »