[Paper] 超越 Masked Diffusion Language Models 的规模化
Source: arXiv - 2602.15014v1
概述
该论文 “Scaling Beyond Masked Diffusion Language Models” 研究了不同离散扩散策略——尤其是广泛使用的 Masked diffusion——在扩展到数十亿参数时的表现。通过系统性地测量困惑度、计算成本和采样速度,作者发现 “best‑perplexity” 指标在不同扩散家族之间可能具有误导性,且其他扩散方案在效率上更高,甚至在某些下游任务上超越 Masked diffusion。
关键贡献
- 首次大规模实证研究,比较了 uniform‑state 与插值扩散方法以及 Masked diffusion,模型规模最高达 1.7 B 参数。
- 证明了在使用简单的 交叉熵损失(而非常规的去噪目标)进行训练时,Masked diffusion 可实现约 12 % FLOPs‑efficiency 增益。
- 表明 困惑度(perplexity)并非所有扩散家族的通用生成质量代理;在实际中,速度‑质量的权衡更为重要。
- 发现 uniform‑state diffusion 在 似然基准 上匹配或超越 Masked diffusion,并且在 GSM8K(数学推理基准)上 优于 Masked 以及自回归模型,尽管其验证困惑度更高。
- 发布 代码、预训练检查点和教程视频,帮助社区复现并进一步扩展该工作。
方法论
-
模型族 – 作者训练了三类离散扩散语言模型:
- Masked diffusion(当前的事实标准)。
- Uniform‑state diffusion,在扩散过程中将每个 token 视为均匀随机状态。
- Interpolating diffusion,将 masked 步骤和 uniform 步骤进行混合。
-
规模方案 – 对于每个模型族,作者在多个规模(≈125 M、350 M、1.7 B 参数)上进行训练,同时保持各族之间的训练计算预算大致相同。
-
训练目标 – 作者没有使用传统的去噪损失,而是尝试了 plain cross‑entropy loss,直接从噪声输入预测原始 token。此简单改动实现了文中所报告的 Masked diffusion 的 FLOPs 节省。
-
评估套件 –
- 在标准语言建模测试集(如 WikiText‑103、C4)上测量 Perplexity。
- 在单个 GPU 上以每秒 token 数衡量 采样速度。
- 在 GSM8K(小学数学)及其他推理基准上评估 下游任务性能。
- 使用 Pareto analysis 可视化生成质量(Perplexity 或任务准确率)与计算成本之间的权衡。
-
分析 – 作者为每个扩散模型族拟合 scaling laws(模型规模、计算量与性能之间的对数‑对数关系),从而能够对更大模型进行外推预测。
结果与发现
| 指标 | 掩码扩散 | 均匀状态扩散 | 插值扩散 |
|---|---|---|---|
| 困惑度(验证) | 在其家族中表现最佳 | 略逊于掩码扩散 | 介于两者之间 |
| 每训练步的 FLOPs | 基线 | ~12 % 更低(使用交叉熵) | 与均匀相当 |
| 采样速度(tokens/s) | ~1.0×(基线) | ~1.4× 更快 | ~1.2× 更快 |
| GSM8K 准确率 | 71 % | 78 %(最高) | 74 % |
| 缩放指数(规模 → 性能) | 与先前扩散工作一致 | 指数相似,但截距更高(在低计算 regime 下表现更好) | 居中 |
解释
- 仅凭困惑度不足以评估:均匀状态扩散的困惑度更高,但生成更快且解答更多数学题。
- 交叉熵训练 在不降低质量的情况下降低计算量,表明对掩码扩散的去噪目标过于复杂。
- Pareto 前沿 显示,在给定计算预算下,均匀状态扩散通常优于掩码扩散,尤其在需要快速采样时。
实际意义
- 更快的生产环境生成:构建聊天机器人、代码助手或实时翻译服务的开发者可以考虑使用统一状态扩散,以在保持相同计算预算的情况下将延迟减半。
- 成本效益模型扩展:12 % 的 FLOPs 减少意味着云训练费用降低,使大型扩散模型对初创公司和研究实验室更易获取。
- 任务特定模型选择:对于推理密集型工作负载(例如数学辅导、数据分析助手),即使困惑度表现较差,统一状态扩散也可能带来更高的下游准确率。
- 简化训练流水线:切换到普通交叉熵损失无需复杂的噪声调度工程,便于与现有深度学习框架(PyTorch、JAX)集成。
- 基准测试指南:本文鼓励社区在比较扩散模型族时报告 速度‑质量帕累托曲线,而不是单一的困惑度数值。
限制与未来工作
- 评估范围:本研究聚焦于英文数据以及有限的下游任务集合(主要是 GSM8K)。对多语言或特定领域语料的泛化仍有待验证。
- 采样算法:作者使用了基本的逆扩散采样器,采用更复杂的采样器(例如自适应步长、分类器引导等)可能进一步推动速度‑质量的边界。
- 模型规模上限:实验止步于 1.7 B 参数;尚不清楚在 10 B 以上模型中观察到的趋势是否仍然成立,因为此时内存和并行度限制占主导。
- 理论理解:论文实证展示了困惑度在不同模型族中的局限性,却未提供为何均匀状态扩散能够提升下游推理能力的正式分析。未来工作可探讨扩散噪声模式与推理能力之间的关联。
所有代码、预训练检查点和教程视频均已公开,位于项目页面:http://s-sahoo.github.io/scaling-dllms。
作者
- Subham Sekhar Sahoo
- Jean‑Marie Lemercier
- Zhihan Yang
- Justin Deschenaux
- Jingyu Liu
- John Thickstun
- Ante Jukic
论文信息
- arXiv ID: 2602.15014v1
- 分类: cs.LG, cs.CL
- 出版时间: 2026年2月16日
- PDF: 下载 PDF