[论文] 离散扩散语言模型的尺度行为

发布: 1个月前 (2025年12月12日 GMT+8 01:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10858v1

概览

本文研究了 离散扩散语言模型 (DLMs) 与主流的 自回归语言模型 (ALMs) 在规模上的对比。通过系统性地改变扩散噪声（从掩码到均匀）并调优关键超参数，作者发现了不同的尺度规律，这些规律可能使基于扩散的模型在实际场景中更具计算或数据效率。

主要贡献

全面的 DLMs 规模研究，覆盖一系列扩散噪声（掩码 ↔ 均匀）。
噪声依赖的尺度定律：均匀扩散倾向于参数丰富、数据需求低的 regime，而掩码扩散则表现相反。
对预测定律的实证验证：训练了一个 100 亿参数的均匀扩散模型，使用约 (10^{22}) FLOPs——这是公开报告的最大均匀扩散语言模型。
实用的批量大小和学习率调度指南，填补了之前工作留下的空白。
开源训练脚本和检查点，便于复现和社区扩展。

方法论

模型族 – 所有实验使用相同的 Transformer 主干，仅更换扩散目标（掩码、均匀或其插值）。
噪声插值 – 通过标量 (\alpha) 平滑混合掩码和均匀腐蚀，实现对扩散类型的连续扫描。
训练 regime – 探索两个主要轴线：
- 计算受限：固定 FLOP 预算，变化模型规模和数据量。
- 数据受限：固定数据集规模，扩大参数和计算。
超参数搜索 – 对批量大小（256 到 8192）和学习率调度（线性预热 + 余弦衰减）进行系统网格搜索，以分离它们对尺度曲线的影响。
评估指标 – 在保留验证集上使用标准交叉熵损失，并加入下游零样本任务（如 cloze、QA）进行定性检查。
尺度定律拟合 – 对每种噪声类型分别进行形如 (L = A \cdot (C)^{-\beta} + B)（其中 (C) 为计算量）的幂律拟合。

结果与发现

噪声类型	计算受限尺度（损失）	数据受限尺度（损失）	参数效率	数据效率
掩码	随数据增多下降更陡；在计算上更早趋于平台期	需要更多数据才能达到低损失	当数据充足时倾向更小模型	在数据稀缺情境下不利
均匀	曲线更平缓；不同规模的模型收敛到相似的极限损失	在更少数据下即可获得更好损失（前提是参数足够）	受益于更大模型即使数据有限	在计算受限设置下更具数据效率
插值（中间范围）	表现介于两极之间	显示过渡行为；相较于两端没有明显优势	—	—

100 亿参数的均匀扩散模型 在验证损失上仅比同等规模的最佳 ALM 高出 2 %，验证了预测的尺度定律在十亿参数级别仍然成立。
在相同计算预算下，均匀扩散模型需要 约 30 % 更少的训练 token 才能达到与掩码扩散相同的损失。
批量大小的尺度遵循经典的 “线性扩展规则” 直至约 4096，之后出现收益递减，尤其在掩码扩散时更为明显。

实际意义

计算受限的创业公司 可选择均匀扩散 LMs：投入更大的模型，但在更小的精选数据集上训练，从而降低数据获取成本。
边缘设备微调：由于均匀扩散对数据需求更低，开发者可以使用适度的本地数据对预训练的 10B 扩散模型进行微调，可能比微调自回归模型更具样本效率。
训练流水线：本文的批量大小和学习率建议可直接嵌入现有的 Transformer 训练脚本（如 DeepSpeed、Megatron‑LM），加速扩散 LM 实验。
研究工具：开源检查点使得在下游任务（代码生成、摘要等）上对扩散模型进行基准测试成为可能，无需巨额计算成本。
混合架构：噪声类型的平滑插值暗示了一类新设计空间，模型可根据可用计算或数据动态切换扩散 regime，实现自适应效率。

局限性与未来工作

任务覆盖 – 评估仅限于语言建模损失和少量零样本基准；需要更广泛的下游任务套件（如推理、编码）来衡量真实效用。
硬件多样性 – 实验在 NVIDIA A100 GPU 上完成，TPU 或新一代 GPU 上的尺度行为可能不同。
能耗考量 – 虽报告 FLOPs，但未测量实际能耗和碳排放。
理论基础 – 噪声依赖的尺度定律目前为经验发现，缺乏更深层的理论解释（如信息论分析）。
混合扩散 – 未来可探索自适应或 curriculum‑based 噪声调度，在训练过程中从掩码逐步过渡到均匀扩散，或许能兼具两者优势。

作者

Dimitri von Rütte
Janis Fluri
Omead Pooladzandi
Bernhard Schölkopf
Thomas Hofmann
Antonio Orvieto

论文信息

arXiv ID: 2512.10858v1
分类: cs.LG
发布时间: 2025 年 12 月 11 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

许多系统在其组件之间表现出复杂的相互作用：某些特征或行为会相互放大效果，其他则提供冗余信息，……

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

Softmax attention 是 transformer 架构的核心组成部分，但其 nonlinear 结构对理论分析提出了重大挑战。我们 dev...

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型

大型语言模型（LLMs）的快速部署在机器学习（ML）领域产生了对加强安全和隐私措施的迫切需求。LLMs 正在...