[Paper] 关于神经尺度定律的起源：从随机图到自然语言

发布: 3周前 (2026年1月16日 GMT+8 02:46)

9 分钟阅读

原文: arXiv

Source: arXiv - 2601.10684v1

概述

本文研究了为何神经网络——尤其是 transformer 语言模型——会呈现可预测的尺度定律（随着数据、计算或参数的增加，性能平滑提升）。通过将语言简化到最基本的形式——图上的随机游走和简化的生成模型——作者展示了即使数据不具备常被指责的重尾幂律结构，尺度行为仍然会出现。这项工作弥合了理论物理（随机图）与实际 AI 之间的鸿沟，提供了关于何时以及如何可信地使用尺度定律的新见解。

关键贡献

展示了在没有幂律数据的情况下的缩放: 表明在 Erdős‑Rényi 和 Barabási‑Albert 图上使用随机游走二元组训练的 transformer 模型仍然遵循神经缩放定律。
系统性的复杂度扫描: 在一系列语言生成器层级（4 层 → 2 层 → 1 层 → 二元模型）上训练 transformer，并观察到缩放指数的单调变化。
使用小模型复现经典语言模型缩放: 通过使用上下文长度为 50 token 的 2 层 transformer，实现了相当的缩放曲线，大幅降低了实验验证所需的计算量。
对拟合实践的批判性回顾: 指出常见曲线拟合方法的陷阱，并提出一种更稳健的方式来提取计算最优的权衡。
关于最大更新参数化 (μP) 的初步证据: 表明 μP 相较于大多数缩放研究中使用的标准参数化，可能在参数效率上更优。

方法论

合成图实验
- 从两个集合生成随机图：
  - Erdős‑Rényi (ER)： 边均匀随机放置。
  - Barabási‑Albert (BA)： 通过优先连接产生尺度自由的度分布。
- 在这些图上执行 随机游走，记录连续节点对（二元组）作为训练序列。
- 在这些二元组流上训练不同深度/宽度的 transformer 模型，遍历模型规模、数据集规模和计算预算。
语言复杂度阶梯
- 构建一系列生成式语言模型：
  - 完整规模的 4 层 transformer LM → 2 层 LM → 1 层 LM → 简单二元组模型。
- 从每个生成器采样序列，并在其上训练固定的 2 层 transformer，同样变化数据量和模型规模。
缩放曲线提取
- 在 (N, D, C) 网格上测量验证损失（交叉熵），其中 N 为参数数量，D 为训练标记数，C 为计算量（FLOPs）。
- 拟合形如
  
  [ L \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + C \cdot C^{-\gamma}, ]
  
  的幂律关系，测试多种回归技术和贝叶斯模型比较。
计算最优分析
- 将经典的 “Pareto‑optimal” 曲线（增加一种资源收益递减）与基于拟合指数得到的替代曲线进行比较，展示先前文献可能高估或低估最优预算的地方。
参数化测试（μP vs. 标准）
- 使用 最大更新参数化 重新训练部分实验，跟踪每增加一个参数时损失的改进速度。

结果与发现

实验	观察到的缩放律	指数趋势	重要洞见
ER 图上的随机游走	(L \propto N^{-0.31} \cdot D^{-0.27} \cdot C^{-0.22})	指数在不同图密度下保持稳定	即使在完全均匀的边概率下，缩放仍然出现。
BA 图上的随机游走	类似的幂律形式，指数略为更陡（≈ ‑0.35）	反映出更高的结构异质性	即使是无标度拓扑也不改变定性规律。
语言复杂度阶梯	指数从二元组（≈ ‑0.20）逐渐增加到四层语言模型（≈ ‑0.33）	数据复杂度与缩放强度之间呈单调关系	暗示缩放指数编码了数据的内在“丰富度”。
微型 2 层 Transformer（上下文 = 50）	在 5% 误差范围内复制经典语言模型缩放曲线	证明大规模实验可以用适度资源近似	促进缩放假设的快速原型开发。
μP 与标准	μP 在参数减少约30% 的情况下实现相当的损失	参数效率提升	为未来的缩放研究指明了一种实用的重新参数化方法。

总体而言，作者确认 神经网络缩放律是一种稳健的涌现现象，而不仅仅是幂律数据统计的副产物。

实际意义

快速扩展实验: 开发者现在可以在廉价的 2‑层模型和短上下文上测试扩展假设，节省计算预算，同时仍能获得可靠的指数估计。
资源分配规划: 精细化的计算最优曲线为在给定性能目标下是投资更多数据、更大模型还是更快硬件提供了更明确的指导。
模型设计选择: 证据表明 maximal update parameterization 能带来更好的参数效率，建议在训练流水线中进行低开销切换，尤其是在 GPU 内存受限的研究实验室。
简化任务基准: 随机游走二元组任务提供了一个轻量级沙盒，用于在扩展到完整语言语料库之前调试与扩展相关的错误（例如学习率调度、优化器稳定性）。
扩展指数的可解释性: 由于指数与数据复杂度相关，监测在添加新数据领域（代码、多模态文本等）时指数的变化，可作为收益递减的早期指示。

限制与未来工作

Synthetic vs. Real‑World Data: 虽然随机游走和简化的语言模型捕捉了核心动态，但它们忽略了许多语言现象（句法、长程依赖），这些现象可能会影响更大模型规模的扩展性。
Model Architecture Scope: 本研究聚焦于 vanilla transformers；尚未明确架构调整（例如检索增强模型、稀疏性）如何改变观察到的规律。
Compute‑Optimal Derivation Assumptions: 替代的最优曲线依赖于拟合指数在数量级之间保持不变——这一假设需要在真正的大规模模型上进行验证。
μP Generalization: 初步结果令人鼓舞，但需要在更广泛的任务（视觉、强化学习）上进行实验，以确认最大更新参数化的普适性。

作者建议将基于图的框架扩展到 heterogeneous graphs（例如知识图谱）并将 multimodal scaling 作为下一步探索方向。

作者

Maissam Barkeshli
Alberto Alfarano
Andrey Gromov

论文信息

arXiv ID: 2601.10684v1
Categories: cs.LG, cond-mat.dis-nn, cs.AI, stat.ML
Published: 2026年1月15日
PDF: 下载 PDF

[Paper] 关于神经尺度定律的起源：从随机图到自然语言

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理