[Paper] 快速解码扩散语言模型通过进度感知置信调度

发布: 2个月前 (2025年12月3日 GMT+8 00:01)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.02892v1

概览

基于扩散的大语言模型（dLLMs）在文本生成质量上有望超越传统的自回归模型，但其迭代采样过程导致实际使用时速度极慢。本文提出 SchED ——一种无需训练、模型无关的提前退出策略，当模型的置信度超过平滑的、随进度变化的阈值时即停止扩散解码过程。在多个 dLLM 系列和十个下游基准上，SchED 将推理时间最多削减至原来的 1/4，同时几乎保持全部原始质量。

关键贡献

SchED 算法：一种简单、无需训练的提前退出方法，聚合整句的 logits 边际并应用与解码进度挂钩的动态置信度调度。
模型无关设计：可直接在任何扩散语言模型上使用（已在 Dream 与 LLaDA，包含基础模型和指令微调模型上测试）。
显著的实证提升：在指令微调模型上实现 3.8–4.0× 加速，保留 99.8–100 % 的基线得分；在激进设置下实现 2.34× 加速，保留 >99 % 的性能。
鲁棒性分析：优于以往基于置信度的提前退出技术，尤其在长文本生成时，后者往往会崩溃。
熵洞察：指出指令微调加速了预测熵的衰减，使得在扩散链的早期更容易达到置信阈值。

方法论

全跨度 logits 边际计算 —— 对于每个扩散步，SchED 收集整段生成序列中 top‑1 与 top‑2 token logits 的差值（即“边际”）。
进度感知置信度调度 —— 与静态阈值不同，算法使用解码进度的平滑函数（例如随扩散步数增加而上升的 sigmoid）作为阈值。这体现了早期步骤噪声大，后期步骤应更确定的直觉。
提前退出决策 —— 当聚合后的边际超过调度阈值时，停止解码并输出当前 token 序列。无需额外训练或微调；调度函数可对每个模型族进行一次性调优。
评估流程 —— 作者将 SchED 集成到两个 dLLM 系列（Dream 与 LLaDA），并在十个多样化任务上进行实验：多项选择问答、数学题、长文本问答、摘要和翻译，覆盖基础模型和指令微调变体。

结果与发现

模型变体	平均加速比	质量保留（相对于完整扩散）
指令微调的 Dream/LLaDA	3.8–4.0×	99.8–100 %
基础 Dream/LLaDA（保守）	2.0–2.5×	99.1–100 %
基础 Dream/LLaDA（激进）	最多 2.34×	99 %+（轻微下降）

质量惩罚指标（QPS, γ=4）：SchED 始终优于之前的基于置信度的提前退出方法，后者在长文本上会卡顿或导致明显的质量下降。
熵衰减：指令微调模型的 token 级预测熵下降更快，意味着它们更早变得“自信”——这正是 SchED 所利用的。
稳定性：在所有十个基准上，加速效果保持稳定；没有出现任何任务的灾难性失败。

实际意义

生产服务的更快推理 —— 将 dLLM 部署到聊天机器人、代码助手或摘要流水线时，现在可以在不牺牲扩散采样质量优势的前提下满足时延预算。
成本节约 —— 减少扩散步数直接削减 GPU 计算时间和能耗，对大规模 API 提供商尤为重要。
即插即用集成 —— 由于 SchED 不需要重新训练，现有扩散模型只需几行代码（边际聚合 + 调度检查）即可改造。
长文本生成的更好用户体验 —— 文档撰写或多轮推理等应用受益于其鲁棒的提前退出行为，避免了以往方法的“卡顿”问题。
对模型开发者的指导 —— 熵分析表明，指令微调不仅提升下游性能，还使模型更适合提前退出策略，为未来的训练流水线提供参考。

局限性与未来工作

调度函数调优 —— 虽然 SchED 无需训练，但仍需对每个模型族进行一次小规模的验证集搜索以确定最佳置信度调度。
极端情况 —— 极具创意或高度模糊的提示可能在整个解码过程中保持高熵，限制提前退出的收益。
对非扩散 LLM 的通用性 —— 该方法专为扩散生成设计；将类似的置信度调度应用于其他非自回归范式仍是开放问题。
作者提出的未来方向 包括：
1. 学习能够在推理时根据输入动态调整的自适应调度。
2. 将 SchED 扩展到多模态扩散模型（如文本到图像）。
3. 将提前退出与量化、蒸馏等其他加速技巧结合，以实现更大幅度的加速。

作者

Amr Mohamed
Yang Zhang
Michalis Vazirgiannis
Guokan Shang

论文信息

arXiv ID: 2512.02892v1
分类: cs.CL
发表时间: 2025 年 12 月 2 日
PDF: Download PDF

[Paper] 快速解码扩散语言模型通过进度感知置信调度

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[论文] 犯错是人之常情：通过 LLM 分析对已发表 AI 论文错误的系统量化