[Paper] 超越 Masked Diffusion Language Models 的规模化

发布: 3天前 (2026年2月17日 GMT+8 02:54)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.15014v1

概述

该论文 “Scaling Beyond Masked Diffusion Language Models” 研究了不同离散扩散策略——尤其是广泛使用的 Masked diffusion——在扩展到数十亿参数时的表现。通过系统性地测量困惑度、计算成本和采样速度，作者发现 “best‑perplexity” 指标在不同扩散家族之间可能具有误导性，且其他扩散方案在效率上更高，甚至在某些下游任务上超越 Masked diffusion。

关键贡献

首次大规模实证研究，比较了 uniform‑state 与插值扩散方法以及 Masked diffusion，模型规模最高达 1.7 B 参数。
证明了在使用简单的 交叉熵损失（而非常规的去噪目标）进行训练时，Masked diffusion 可实现约 12 % FLOPs‑efficiency 增益。
表明 困惑度（perplexity）并非所有扩散家族的通用生成质量代理；在实际中，速度‑质量的权衡更为重要。
发现 uniform‑state diffusion 在 似然基准 上匹配或超越 Masked diffusion，并且在 GSM8K（数学推理基准）上 优于 Masked 以及自回归模型，尽管其验证困惑度更高。
发布 代码、预训练检查点和教程视频，帮助社区复现并进一步扩展该工作。

方法论

模型族 – 作者训练了三类离散扩散语言模型：
- Masked diffusion（当前的事实标准）。
- Uniform‑state diffusion，在扩散过程中将每个 token 视为均匀随机状态。
- Interpolating diffusion，将 masked 步骤和 uniform 步骤进行混合。
规模方案 – 对于每个模型族，作者在多个规模（≈125 M、350 M、1.7 B 参数）上进行训练，同时保持各族之间的训练计算预算大致相同。
训练目标 – 作者没有使用传统的去噪损失，而是尝试了 plain cross‑entropy loss，直接从噪声输入预测原始 token。此简单改动实现了文中所报告的 Masked diffusion 的 FLOPs 节省。
评估套件 –
- 在标准语言建模测试集（如 WikiText‑103、C4）上测量 Perplexity。
- 在单个 GPU 上以每秒 token 数衡量 采样速度。
- 在 GSM8K（小学数学）及其他推理基准上评估 下游任务性能。
- 使用 Pareto analysis 可视化生成质量（Perplexity 或任务准确率）与计算成本之间的权衡。
分析 – 作者为每个扩散模型族拟合 scaling laws（模型规模、计算量与性能之间的对数‑对数关系），从而能够对更大模型进行外推预测。

结果与发现

指标	掩码扩散	均匀状态扩散	插值扩散
困惑度（验证）	在其家族中表现最佳	略逊于掩码扩散	介于两者之间
每训练步的 FLOPs	基线	~12 % 更低（使用交叉熵）	与均匀相当
采样速度（tokens/s）	~1.0×（基线）	~1.4× 更快	~1.2× 更快
GSM8K 准确率	71 %	78 %（最高）	74 %
缩放指数（规模 → 性能）	与先前扩散工作一致	指数相似，但截距更高（在低计算 regime 下表现更好）	居中

解释

仅凭困惑度不足以评估：均匀状态扩散的困惑度更高，但生成更快且解答更多数学题。
交叉熵训练 在不降低质量的情况下降低计算量，表明对掩码扩散的去噪目标过于复杂。
Pareto 前沿 显示，在给定计算预算下，均匀状态扩散通常优于掩码扩散，尤其在需要快速采样时。

实际意义

更快的生产环境生成：构建聊天机器人、代码助手或实时翻译服务的开发者可以考虑使用统一状态扩散，以在保持相同计算预算的情况下将延迟减半。
成本效益模型扩展：12 % 的 FLOPs 减少意味着云训练费用降低，使大型扩散模型对初创公司和研究实验室更易获取。
任务特定模型选择：对于推理密集型工作负载（例如数学辅导、数据分析助手），即使困惑度表现较差，统一状态扩散也可能带来更高的下游准确率。
简化训练流水线：切换到普通交叉熵损失无需复杂的噪声调度工程，便于与现有深度学习框架（PyTorch、JAX）集成。
基准测试指南：本文鼓励社区在比较扩散模型族时报告 速度‑质量帕累托曲线，而不是单一的困惑度数值。

限制与未来工作

评估范围：本研究聚焦于英文数据以及有限的下游任务集合（主要是 GSM8K）。对多语言或特定领域语料的泛化仍有待验证。
采样算法：作者使用了基本的逆扩散采样器，采用更复杂的采样器（例如自适应步长、分类器引导等）可能进一步推动速度‑质量的边界。
模型规模上限：实验止步于 1.7 B 参数；尚不清楚在 10 B 以上模型中观察到的趋势是否仍然成立，因为此时内存和并行度限制占主导。
理论理解：论文实证展示了困惑度在不同模型族中的局限性，却未提供为何均匀状态扩散能够提升下游推理能力的正式分析。未来工作可探讨扩散噪声模式与推理能力之间的关联。

所有代码、预训练检查点和教程视频均已公开，位于项目页面：http://s-sahoo.github.io/scaling-dllms。

作者

Subham Sekhar Sahoo
Jean‑Marie Lemercier
Zhihan Yang
Justin Deschenaux
Jingyu Liu
John Thickstun
Ante Jukic

论文信息

arXiv ID: 2602.15014v1
分类: cs.LG, cs.CL
出版时间: 2026年2月16日
PDF: 下载 PDF

[Paper] 超越 Masked Diffusion Language Models 的规模化

概述

关键贡献

方法论

结果与发现

解释

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 我们能信任谁？LLM-as-a-jury 用于比较评估

[Paper] 大型语言模型中的递归概念演化与组合推理

[Paper] TAROT：测试驱动和能力自适应的课程强化微调用于大语言模型的代码生成

[Paper] 语言统计中的对称性塑造模型表征的几何结构