[Paper] 重新审视大语言模型训练中下游指标的规模特性

发布: 2个月前 (2025年12月10日 GMT+8 02:33)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08894v1

Overview

作者重新审视了 LLM 研究中的一个长期假设：从预训练损失得到的尺度定律对下游任务性能的预测能力较差。通过直接建模基准准确率随总训练预算的变化，他们展示了一个简单的幂律关系能够可靠地预测跨越多种模型规模和 token 数量的下游结果。该发现改变了实践者规划计算预算和预测真实世界性能的方式，无需昂贵的反复试验。

Key Contributions

下游指标的直接尺度定律 – 表明多个流行基准的对数准确率相对于训练预算（tokens × parameters）遵循简洁的幂律。
跨尺度的实证验证 – 在参数量从 125 M 到 17 B、训练 token 数最高达 350 B 的模型上进行实验，覆盖两种不同的数据混合。
与两阶段方法的比较 – 证明直接方法在外推时比传统流水线（预训练损失 → 下游预测）更准确。
扩展的函数形式 – 引入了考虑 token‑to‑parameter 比例和推理计算（例如重复采样）的公式，以在不同部署场景下预测准确率。
开放数据发布 – 公布了完整的预训练损失曲线和下游评估结果，便于可重复性和进一步研究。

Methodology

将训练预算作为自变量 – 作者将模型参数量 (P) 与总训练 token 数 (T) 的乘积视为单一的“预算”变量，(B = P \times T)。
幂律拟合 – 对每个下游基准，他们拟合形式为
[ \log(\text{accuracy}) = a \cdot \log(B) + b ]
的关系，其中 a 和 b 为学习得到的系数。
跨 token‑to‑parameter 比例的交叉验证 – 在若干固定比例 (r = T/P) 下重复拟合，以验证该定律在比例变化时仍然成立。
推理计算扩展 – 通过对重复采样（如基于温度的解码或集成投票）建模，加入捕获额外推理 FLOPs 的项，得到更通用的预测曲面。
基线比较 – 经典的两阶段流水线首先从预算预测预训练损失，然后将损失映射到下游准确率。作者复现该流水线并将外推误差与其直接方法进行比较。

所有步骤均使用普通最小二乘回归；不需要任何奇特的优化或强化学习技巧，使得该方法易于复现。

Results & Findings

Metric	Direct Power‑Law (this work)	Two‑Stage Baseline
对持出下游准确率的平均绝对误差（跨 5 个基准）	≈ 1.2 %	≈ 3.8 %
对 17 B 参数模型的外推（在拟合时未见）	与实际准确率相差 ≤ 1 %	高估 4–6 %
对 token‑to‑parameter 比例的敏感性	通过一个简单的加法项捕获；在比例 10–1000 范围内预测误差 ≤ 2 %	当比例偏离训练点时误差 >5 %

关键结论

对数准确率随对数预算线性缩放，适用于所考察的任务（如 BoolQ、RTE、SST‑2 等）。
直接模型的外推误差在预测比任何训练点大 10 倍 的模型性能时仍保持低水平。
引入推理计算后得到的 平滑折衷曲线 与温度采样和多数投票集成的实证结果吻合。

Practical Implications

预算驱动的模型选择 – 团队现在可以在投入昂贵训练之前，估算给定计算预算下能够达到的下游准确率。
快速原型 – 只需进行少量小规模实验，即可预测更大模型的性能，缩短迭代周期。
成本效益的推理规划 – 扩展公式帮助决定是投入额外的推理 FLOPs（例如更多采样步）还是扩大模型规模更划算。
数据混合决策 – 由于作者测试了两种数据混合，该方法可用于比较不同预训练语料库的下游收益，而无需全规模实验。
产品路线图 – 企业可以将路线图里程碑（例如“在 Q3 前实现 X 基准 90 % 准确率”）与具体的计算分配对应起来，提高对利益相关者的透明度。

Limitations & Future Work

任务覆盖范围 – 本研究聚焦于少数分类和推理基准；对生成类任务（如代码合成、长文 QA）的尺度行为尚未验证。
模型架构差异 – 所有实验均使用标准的仅解码器 Transformer；尚不清楚该幂律是否同样适用于 encoder‑decoder 或 mixture‑of‑experts 模型。
数据质量影响 – 虽然考察了两种数据混合，但对数据清洗、分词策略或领域特定语料对尺度定律的影响尚未深入探讨。
幂律之外 – 在极端规模（数千亿参数）下，线性对数‑对数关系可能出现饱和；未来工作可研究渐近 regime 或加入饱和项的模型。

作者邀请社区扩展数据集、测试更多任务并改进函数形式，为更加可靠、预算感知的 LLM 开发铺平道路。

Authors

Jakub Krajewski
Amitis Shidani
Dan Busbridge
Sam Wiseman
Jason Ramapuram

Paper Information

arXiv ID: 2512.08894v1
Categories: cs.LG, cs.AI, cs.CL
Published: December 9, 2025
PDF: Download PDF

[Paper] 重新审视大语言模型训练中下游指标的规模特性

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性