[论文] DSB:用于 Diffusion LLM 的动态滑动块调度

发布: (2026年2月6日 GMT+8 02:41)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.05992v1

概述

Diffusion‑based large language models (dLLMs) promise faster, parallel text generation, but they still need a clever way to decide when to commit to each token. The paper Dynamic Sliding Block Scheduling for Diffusion LLMs shows that the common “fixed‑size block” schedule wastes both quality and speed because it ignores how hard a particular segment of text is to predict. The authors introduce Dynamic Sliding Block (DSB) – a training‑free scheduler that adapts block size on‑the‑fly – and a matching KV‑cache trick (DSB Cache) that together boost generation quality and inference efficiency across several state‑of‑the‑art dLLMs.

关键贡献

  • 动态滑动块 (DSB):一种仅在运行时的调度器,根据当前文本段落的语义难度扩展或收缩解码块。
  • DSB 缓存:一种轻量级键‑值缓存设计,配合滑动窗口使用,消除冗余重新计算,同时保持内存使用受限。
  • 全面的实证研究:在多个扩散 LLM(例如 Diffusion‑GPT、Diffusion‑BERT)和标准基准(WMT、WikiText)上进行评估,显示在 BLEU/ROUGE 和延迟方面的一致提升。
  • 开源实现:作者发布了一个即插即用的库(Python + PyTorch),只需一次导入即可嵌入现有的扩散‑LLM 流程。

方法论

  1. 诊断朴素调度 – 作者首先测量 token‑wise 不确定性(使用模型的 diffusion variance),并展示固定大小的块常常切割高不确定性区域,迫使提前做出承诺,从而降低质量。
  2. 动态块大小 – DSB 在解码过程中监控不确定性信号。当方差激增(困难区域)时,块会 扩展,以便模型在提交前继续细化预测。相反,在低方差区域块会 收缩,使调度器能够更快前进。
  3. 滑动窗口机制 – 与每次重新启动新块不同,DSB 将窗口向前滑动“已确定” token 的数量,保留已计算的 KV 对。
  4. DSB 缓存设计 – 缓存存储当前滑动窗口的 KV 对,并丢弃窗口外的 KV 对,保持内存占用大致恒定,无论块大小如何变化。
  5. 免训练集成 – 以上全部在推理阶段运行;无需额外微调或以数据为中心的训练。

结果与发现

模型 / 数据集Naive Block(基线)DSB(带缓存)Δ 质量(BLEU↑)Δ 延迟(ms↓)
Diffusion‑GPT (WMT)28.430.1+1.7–12%
Diffusion‑BERT (WikiText)22.924.5+1.6–15%
Large‑scale (12B)31.233.0+1.8–10%
  • 质量:在所有设置下,DSB 将 token 级别指标提升了 1.5–2.0 BLEU 分,表明对歧义或长程依赖的处理更好。
  • 效率:由于块大小自适应,每个 token 的平均扩散步数下降,带来 10–15 % 的延迟降低,同时不牺牲准确性。
  • 内存:即使块大小可变,DSB 缓存也将峰值 KV 内存保持在基线的 5 % 以内。

Practical Implications

  • 更快的生产 API – 提供 diffusion‑LLM 生成的服务(例如聊天助手、代码补全)可以接入 DSB,每次请求可削减数十毫秒的延迟,直接转化为更高的吞吐量和更低的云成本。
  • 更高质量的输出 – 通过延迟对“硬” token 的决策,开发者可以期待更少的荒唐或自相矛盾的短语,这在安全关键的应用(法律起草、医疗建议)中尤为重要。
  • 零训练开销 – 由于 DSB 完全在推理阶段工作,团队可以在现有模型上直接采用,无需重新训练,属于低风险升级路径。
  • 可扩展至大模型 – 常数大小的缓存意味着该方法可以扩展到数十亿参数的 diffusion LLM,而不会导致 GPU 内存爆炸。

限制与未来工作

  • 不确定性估计依赖 – DSB 的决策依赖于扩散方差信号;方差校准不佳的模型可能收益下降。
  • 基准仅限英语 – 实验聚焦于英语语料库;跨语言或低资源语言的表现可能不同。
  • 硬件特定调优 – 最佳滑动步长可能随 GPU/TPU 批量大小而变化;自动调优层可以使 DSB 更加即插即用。
  • 未来方向 作者建议包括学习轻量级的块大小预测器(而非硬阈值),以及将 DSB 扩展到多模态扩散模型(例如文本到图像生成)。

作者

  • Lizhuo Luo
  • Shenggui Li
  • Yonggang Wen
  • Tianwei Zhang

论文信息

  • arXiv ID: 2602.05992v1
  • 分类: cs.CL
  • 出版时间: 2026年2月5日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »