[论文] 离散扩散语言模型的尺度行为
发布: (2025年12月12日 GMT+8 01:54)
7 min read
原文: arXiv
Source: arXiv - 2512.10858v1
概览
本文研究了 离散扩散语言模型 (DLMs) 与主流的 自回归语言模型 (ALMs) 在规模上的对比。通过系统性地改变扩散噪声(从掩码到均匀)并调优关键超参数,作者发现了不同的尺度规律,这些规律可能使基于扩散的模型在实际场景中更具计算或数据效率。
主要贡献
- 全面的 DLMs 规模研究,覆盖一系列扩散噪声(掩码 ↔ 均匀)。
- 噪声依赖的尺度定律:均匀扩散倾向于参数丰富、数据需求低的 regime,而掩码扩散则表现相反。
- 对预测定律的实证验证:训练了一个 100 亿参数的均匀扩散模型,使用约 (10^{22}) FLOPs——这是公开报告的最大均匀扩散语言模型。
- 实用的批量大小和学习率调度指南,填补了之前工作留下的空白。
- 开源训练脚本和检查点,便于复现和社区扩展。
方法论
- 模型族 – 所有实验使用相同的 Transformer 主干,仅更换扩散目标(掩码、均匀或其插值)。
- 噪声插值 – 通过标量 (\alpha) 平滑混合掩码和均匀腐蚀,实现对扩散类型的连续扫描。
- 训练 regime – 探索两个主要轴线:
- 计算受限:固定 FLOP 预算,变化模型规模和数据量。
- 数据受限:固定数据集规模,扩大参数和计算。
- 超参数搜索 – 对批量大小(256 到 8192)和学习率调度(线性预热 + 余弦衰减)进行系统网格搜索,以分离它们对尺度曲线的影响。
- 评估指标 – 在保留验证集上使用标准交叉熵损失,并加入下游零样本任务(如 cloze、QA)进行定性检查。
- 尺度定律拟合 – 对每种噪声类型分别进行形如 (L = A \cdot (C)^{-\beta} + B)(其中 (C) 为计算量)的幂律拟合。
结果与发现
| 噪声类型 | 计算受限尺度(损失) | 数据受限尺度(损失) | 参数效率 | 数据效率 |
|---|---|---|---|---|
| 掩码 | 随数据增多下降更陡;在计算上更早趋于平台期 | 需要 更多数据 才能达到低损失 | 当数据充足时倾向 更小模型 | 在数据稀缺情境下不利 |
| 均匀 | 曲线更平缓;不同规模的模型收敛到相似的极限损失 | 在 更少数据 下即可获得 更好损失(前提是参数足够) | 受益于 更大模型 即使数据有限 | 在计算受限设置下 更具数据效率 |
| 插值(中间范围) | 表现介于两极之间 | 显示过渡行为;相较于两端没有明显优势 | — | — |
- 100 亿参数的均匀扩散模型 在验证损失上仅比同等规模的最佳 ALM 高出 2 %,验证了预测的尺度定律在十亿参数级别仍然成立。
- 在相同计算预算下,均匀扩散模型需要 约 30 % 更少的训练 token 才能达到与掩码扩散相同的损失。
- 批量大小的尺度遵循经典的 “线性扩展规则” 直至约 4096,之后出现收益递减,尤其在掩码扩散时更为明显。
实际意义
- 计算受限的创业公司 可选择均匀扩散 LMs:投入更大的模型,但在更小的精选数据集上训练,从而降低数据获取成本。
- 边缘设备微调:由于均匀扩散对数据需求更低,开发者可以使用适度的本地数据对预训练的 10B 扩散模型进行微调,可能比微调自回归模型更具样本效率。
- 训练流水线:本文的批量大小和学习率建议可直接嵌入现有的 Transformer 训练脚本(如 DeepSpeed、Megatron‑LM),加速扩散 LM 实验。
- 研究工具:开源检查点使得在下游任务(代码生成、摘要等)上对扩散模型进行基准测试成为可能,无需巨额计算成本。
- 混合架构:噪声类型的平滑插值暗示了一类新设计空间,模型可根据可用计算或数据动态切换扩散 regime,实现自适应效率。
局限性与未来工作
- 任务覆盖 – 评估仅限于语言建模损失和少量零样本基准;需要更广泛的下游任务套件(如推理、编码)来衡量真实效用。
- 硬件多样性 – 实验在 NVIDIA A100 GPU 上完成,TPU 或新一代 GPU 上的尺度行为可能不同。
- 能耗考量 – 虽报告 FLOPs,但未测量实际能耗和碳排放。
- 理论基础 – 噪声依赖的尺度定律目前为经验发现,缺乏更深层的理论解释(如信息论分析)。
- 混合扩散 – 未来可探索自适应或 curriculum‑based 噪声调度,在训练过程中从掩码逐步过渡到均匀扩散,或许能兼具两者优势。
作者
- Dimitri von Rütte
- Janis Fluri
- Omead Pooladzandi
- Bernhard Schölkopf
- Thomas Hofmann
- Antonio Orvieto
论文信息
- arXiv ID: 2512.10858v1
- 分类: cs.LG
- 发布时间: 2025 年 12 月 11 日
- PDF: Download PDF