[Paper] 超越 Masked Diffusion Language Models 的规模化

发布: (2026年2月17日 GMT+8 02:54)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.15014v1

概述

该论文 “Scaling Beyond Masked Diffusion Language Models” 研究了不同离散扩散策略——尤其是广泛使用的 Masked diffusion——在扩展到数十亿参数时的表现。通过系统性地测量困惑度、计算成本和采样速度,作者发现 “best‑perplexity” 指标在不同扩散家族之间可能具有误导性,且其他扩散方案在效率上更高,甚至在某些下游任务上超越 Masked diffusion。

关键贡献

  • 首次大规模实证研究,比较了 uniform‑state 与插值扩散方法以及 Masked diffusion,模型规模最高达 1.7 B 参数
  • 证明了在使用简单的 交叉熵损失(而非常规的去噪目标)进行训练时,Masked diffusion 可实现约 12 % FLOPs‑efficiency 增益
  • 表明 困惑度(perplexity)并非所有扩散家族的通用生成质量代理;在实际中,速度‑质量的权衡更为重要。
  • 发现 uniform‑state diffusion似然基准 上匹配或超越 Masked diffusion,并且在 GSM8K(数学推理基准)上 优于 Masked 以及自回归模型,尽管其验证困惑度更高。
  • 发布 代码、预训练检查点和教程视频,帮助社区复现并进一步扩展该工作。

方法论

  1. 模型族 – 作者训练了三类离散扩散语言模型:

    • Masked diffusion(当前的事实标准)。
    • Uniform‑state diffusion,在扩散过程中将每个 token 视为均匀随机状态。
    • Interpolating diffusion,将 masked 步骤和 uniform 步骤进行混合。
  2. 规模方案 – 对于每个模型族,作者在多个规模(≈125 M、350 M、1.7 B 参数)上进行训练,同时保持各族之间的训练计算预算大致相同。

  3. 训练目标 – 作者没有使用传统的去噪损失,而是尝试了 plain cross‑entropy loss,直接从噪声输入预测原始 token。此简单改动实现了文中所报告的 Masked diffusion 的 FLOPs 节省。

  4. 评估套件

    • 在标准语言建模测试集(如 WikiText‑103、C4)上测量 Perplexity
    • 在单个 GPU 上以每秒 token 数衡量 采样速度
    • 在 GSM8K(小学数学)及其他推理基准上评估 下游任务性能
    • 使用 Pareto analysis 可视化生成质量(Perplexity 或任务准确率)与计算成本之间的权衡。
  5. 分析 – 作者为每个扩散模型族拟合 scaling laws(模型规模、计算量与性能之间的对数‑对数关系),从而能够对更大模型进行外推预测。

结果与发现

指标掩码扩散均匀状态扩散插值扩散
困惑度(验证)在其家族中表现最佳略逊于掩码扩散介于两者之间
每训练步的 FLOPs基线~12 % 更低(使用交叉熵)与均匀相当
采样速度(tokens/s)~1.0×(基线)~1.4× 更快~1.2× 更快
GSM8K 准确率71 %78 %(最高)74 %
缩放指数(规模 → 性能)与先前扩散工作一致指数相似,但截距更高(在低计算 regime 下表现更好)居中

解释

  • 仅凭困惑度不足以评估:均匀状态扩散的困惑度更高,但生成更快且解答更多数学题。
  • 交叉熵训练 在不降低质量的情况下降低计算量,表明对掩码扩散的去噪目标过于复杂。
  • Pareto 前沿 显示,在给定计算预算下,均匀状态扩散通常优于掩码扩散,尤其在需要快速采样时。

实际意义

  • 更快的生产环境生成:构建聊天机器人、代码助手或实时翻译服务的开发者可以考虑使用统一状态扩散,以在保持相同计算预算的情况下将延迟减半。
  • 成本效益模型扩展:12 % 的 FLOPs 减少意味着云训练费用降低,使大型扩散模型对初创公司和研究实验室更易获取。
  • 任务特定模型选择:对于推理密集型工作负载(例如数学辅导、数据分析助手),即使困惑度表现较差,统一状态扩散也可能带来更高的下游准确率。
  • 简化训练流水线:切换到普通交叉熵损失无需复杂的噪声调度工程,便于与现有深度学习框架(PyTorch、JAX)集成。
  • 基准测试指南:本文鼓励社区在比较扩散模型族时报告 速度‑质量帕累托曲线,而不是单一的困惑度数值。

限制与未来工作

  • 评估范围:本研究聚焦于英文数据以及有限的下游任务集合(主要是 GSM8K)。对多语言或特定领域语料的泛化仍有待验证。
  • 采样算法:作者使用了基本的逆扩散采样器,采用更复杂的采样器(例如自适应步长、分类器引导等)可能进一步推动速度‑质量的边界。
  • 模型规模上限:实验止步于 1.7 B 参数;尚不清楚在 10 B 以上模型中观察到的趋势是否仍然成立,因为此时内存和并行度限制占主导。
  • 理论理解:论文实证展示了困惑度在不同模型族中的局限性,却未提供为何均匀状态扩散能够提升下游推理能力的正式分析。未来工作可探讨扩散噪声模式与推理能力之间的关联。

所有代码、预训练检查点和教程视频均已公开,位于项目页面:http://s-sahoo.github.io/scaling-dllms

作者

  • Subham Sekhar Sahoo
  • Jean‑Marie Lemercier
  • Zhihan Yang
  • Justin Deschenaux
  • Jingyu Liu
  • John Thickstun
  • Ante Jukic

论文信息

  • arXiv ID: 2602.15014v1
  • 分类: cs.LG, cs.CL
  • 出版时间: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »