[Paper] Diffusion Duality, Chapter II: $Ψ$-Samplers 与 高效课程

发布: (2026年2月25日 GMT+8 02:35)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.21185v1

Overview

论文 “The Diffusion Duality, Chapter II: Ψ‑Samplers and Efficient Curriculum” 表明,使用 uniform‑state 噪声调度的离散扩散模型,其采样效率远高于目前主导语言模型生成流水线的传统祖先采样器。通过引入一系列新的 Predictor‑Corrector (PC) 采样器以及内存友好的训练 curriculum,作者在大规模文本语料上实现了更低的 perplexity,并在 CIFAR‑10 上提升了图像质量——同时在采样步数增加时也能平滑扩展。

关键贡献

  • 通用预测‑校正(PC)采样器 适用于 任何 离散扩散噪声过程,扩展并统一了之前的采样技巧。
  • 实证突破: PC 采样器在语言(OpenWebText、LM1B)和图像(CIFAR‑10)基准上始终优于祖先采样,并且随着采样步数的增加仍在持续提升。
  • 均匀状态扩散优势: 证明了均匀状态扩散的自校正特性使其成为语言生成中对抗掩码扩散的有力替代方案。
  • 高效训练课程: 引入了一种内存高效的 “Gaussian relaxation” 课程,相比之前的 Duo 方法将训练时间缩短约 25 %,GPU 内存使用降低约 33 %,且不牺牲困惑度。
  • 开源发布: 代码、预训练检查点以及视频教程已公开,降低了实践者尝试这些采样器的门槛。

方法论

  1. 统一状态离散扩散:

    • 扩散过程向每个 token 添加 均匀 噪声,使词表变成所有符号的平坦分布。这赋予生成过程强大的自我纠正能力。
  2. 预测‑校正(PC)框架:

    • 预测步骤: 标准去噪模型(例如 transformer)预测下一个噪声更低的状态。
    • 校正步骤: 轻量级马尔可夫链校正(通常是几次 Gibbs 风格的更新)对预测器的输出进行细化,使其向真实扩散后验下的高概率区域靠拢。
    • PC 循环可以重复任意次数,以在速度和质量之间进行权衡。
  3. 高斯松弛的课程学习:

    • 训练从离散扩散的 松弛 版本开始,其中噪声为高斯分布,计算成本更低。
    • 随着训练轮次的推进,课程逐步收紧松弛程度,直至模型看到完整的离散扩散目标。
    • 这种分阶段方法降低了内存占用,因为早期阶段所需的离散化桶更少,并加快了收敛速度。
  4. 评估协议:

    • 语言: 在固定的 unigram 熵下测量生成困惑度(以隔离采样质量)。
    • 图像: 在 CIFAR‑10 上使用 Fréchet Inception Distance(FID)和 Inception Score(IS)。
    • 与强基线进行比较:统一状态扩散的祖先采样器和遮蔽扩散模型。

结果与发现

领域指标祖先采样器PC 采样器(本工作)
文本(OpenWebText)困惑度 @ 固定 unigram 熵23.121.4
文本(LM1B)困惑度24.822.9
图像(CIFAR‑10)FID(越低越好)7.96.3
图像(CIFAR‑10)IS(越高越好)8.29.1
  • 随步数的扩展: 当祖先采样器在约 10 步后出现平台期时,PC 采样器持续改进至 50‑100 步,验证了“自校正”声明。
  • 训练效率: 高斯松弛课程将 8 GPU 节点上的实际训练时间从 40 小时降低至约 30 小时,并将峰值内存从 24 GB 降至约 16 GB。
  • 下游迁移: 微调后的语言模型在 GLUE 任务上保持相当的 zero‑shot 性能,表明该课程不会损害下游效用。

实际意义

  • 更快、更高质量的生成,面向开发者: 构建聊天机器人、代码助手或故事生成器的团队可以将现有的自回归或掩码扩散采样器替换为 PC 采样器,从而在不增加模型参数的情况下获得更低的困惑度。
  • 灵活的延迟‑质量权衡: 由于 PC 循环可以提前终止,服务可以为高端请求(例如更长、更连贯的输出)动态分配更多计算资源,同时在对普通查询的严格延迟预算内运行。
  • 降低训练成本: 内存高效的课程表使得在普通 GPU(例如 16 GB 显存)上训练大规模扩散语言模型成为可能,为硬件受限的初创公司和研究实验室打开了大门。
  • 统一的文本与图像框架: 同一 PC 采样器可跨模态使用,简化了多模态生成平台的工程体系。
  • 开源工具包: 发布的代码仓库包含可直接运行的脚本、PC 循环的 PyTorch 实现以及教程视频,便于快速原型开发并集成到现有流水线中。

限制与未来工作

  • 数据集范围: 实验聚焦于 OpenWebText、LM1B 和 CIFAR‑10。尚不清楚该方法在大规模网络语料(例如数十亿 token)或更高分辨率图像上的扩展性。
  • 校正步骤的计算开销: 虽然每个校正器成本低,但大量迭代会增加实际运行时间;如何优化每一步的校正更新次数仍是一个未解决的工程难题。
  • 理论保证: 论文提供了随步骤持续改进的实证证据,但对任意噪声过程的形式收敛性分析仍未完成。
  • 向条件生成的扩展: 将 PC 采样器用于条件任务(如文本到图像、翻译)需要额外的条件机制,并可能暴露新的稳定性问题。

作者提出的未来研究方向包括:

  1. 探索自适应调度,动态决定每一步所需的校正迭代次数。
  2. 将课程扩展到多 GPU 与分布式环境。
  3. 将 PC 采样器与检索增强或指令微调模型结合,以评估其在真实用户场景中的影响。

作者

  • Justin Deschenaux
  • Caglar Gulcehre
  • Subham Sekhar Sahoo

论文信息

  • arXiv ID: 2602.21185v1
  • 分类: cs.LG
  • 发表时间: 2026年2月24日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »