[论文] 离散扩散语言模型的尺度行为

发布: (2025年12月12日 GMT+8 01:54)
7 min read
原文: arXiv

Source: arXiv - 2512.10858v1

概览

本文研究了 离散扩散语言模型 (DLMs) 与主流的 自回归语言模型 (ALMs) 在规模上的对比。通过系统性地改变扩散噪声(从掩码到均匀)并调优关键超参数,作者发现了不同的尺度规律,这些规律可能使基于扩散的模型在实际场景中更具计算或数据效率。

主要贡献

  • 全面的 DLMs 规模研究,覆盖一系列扩散噪声(掩码 ↔ 均匀)。
  • 噪声依赖的尺度定律:均匀扩散倾向于参数丰富、数据需求低的 regime,而掩码扩散则表现相反。
  • 对预测定律的实证验证:训练了一个 100 亿参数的均匀扩散模型,使用约 (10^{22}) FLOPs——这是公开报告的最大均匀扩散语言模型。
  • 实用的批量大小和学习率调度指南,填补了之前工作留下的空白。
  • 开源训练脚本和检查点,便于复现和社区扩展。

方法论

  1. 模型族 – 所有实验使用相同的 Transformer 主干,仅更换扩散目标(掩码、均匀或其插值)。
  2. 噪声插值 – 通过标量 (\alpha) 平滑混合掩码和均匀腐蚀,实现对扩散类型的连续扫描。
  3. 训练 regime – 探索两个主要轴线:
    • 计算受限:固定 FLOP 预算,变化模型规模和数据量。
    • 数据受限:固定数据集规模,扩大参数和计算。
  4. 超参数搜索 – 对批量大小(256 到 8192)和学习率调度(线性预热 + 余弦衰减)进行系统网格搜索,以分离它们对尺度曲线的影响。
  5. 评估指标 – 在保留验证集上使用标准交叉熵损失,并加入下游零样本任务(如 cloze、QA)进行定性检查。
  6. 尺度定律拟合 – 对每种噪声类型分别进行形如 (L = A \cdot (C)^{-\beta} + B)(其中 (C) 为计算量)的幂律拟合。

结果与发现

噪声类型计算受限尺度(损失)数据受限尺度(损失)参数效率数据效率
掩码随数据增多下降更陡;在计算上更早趋于平台期需要 更多数据 才能达到低损失当数据充足时倾向 更小模型在数据稀缺情境下不利
均匀曲线更平缓;不同规模的模型收敛到相似的极限损失更少数据 下即可获得 更好损失(前提是参数足够)受益于 更大模型 即使数据有限在计算受限设置下 更具数据效率
插值(中间范围)表现介于两极之间显示过渡行为;相较于两端没有明显优势
  • 100 亿参数的均匀扩散模型 在验证损失上仅比同等规模的最佳 ALM 高出 2 %,验证了预测的尺度定律在十亿参数级别仍然成立。
  • 在相同计算预算下,均匀扩散模型需要 约 30 % 更少的训练 token 才能达到与掩码扩散相同的损失。
  • 批量大小的尺度遵循经典的 “线性扩展规则” 直至约 4096,之后出现收益递减,尤其在掩码扩散时更为明显。

实际意义

  • 计算受限的创业公司 可选择均匀扩散 LMs:投入更大的模型,但在更小的精选数据集上训练,从而降低数据获取成本。
  • 边缘设备微调:由于均匀扩散对数据需求更低,开发者可以使用适度的本地数据对预训练的 10B 扩散模型进行微调,可能比微调自回归模型更具样本效率。
  • 训练流水线:本文的批量大小和学习率建议可直接嵌入现有的 Transformer 训练脚本(如 DeepSpeed、Megatron‑LM),加速扩散 LM 实验。
  • 研究工具:开源检查点使得在下游任务(代码生成、摘要等)上对扩散模型进行基准测试成为可能,无需巨额计算成本。
  • 混合架构:噪声类型的平滑插值暗示了一类新设计空间,模型可根据可用计算或数据动态切换扩散 regime,实现自适应效率。

局限性与未来工作

  • 任务覆盖 – 评估仅限于语言建模损失和少量零样本基准;需要更广泛的下游任务套件(如推理、编码)来衡量真实效用。
  • 硬件多样性 – 实验在 NVIDIA A100 GPU 上完成,TPU 或新一代 GPU 上的尺度行为可能不同。
  • 能耗考量 – 虽报告 FLOPs,但未测量实际能耗和碳排放。
  • 理论基础 – 噪声依赖的尺度定律目前为经验发现,缺乏更深层的理论解释(如信息论分析)。
  • 混合扩散 – 未来可探索自适应或 curriculum‑based 噪声调度,在训练过程中从掩码逐步过渡到均匀扩散,或许能兼具两者优势。

作者

  • Dimitri von Rütte
  • Janis Fluri
  • Omead Pooladzandi
  • Bernhard Schölkopf
  • Thomas Hofmann
  • Antonio Orvieto

论文信息

  • arXiv ID: 2512.10858v1
  • 分类: cs.LG
  • 发布时间: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »