Train-to-Test scaling 解释：如何优化端到端 AI 推理计算预算

发布: 2天前 (2026年4月18日 GMT+8 01:34)

8 分钟阅读

Source: VentureBeat

Introduction

标准的大语言模型（LLM）构建指南仅优化训练成本，忽视推理成本。这给使用推理时扩展技术的实际应用带来了挑战——例如在部署时从模型中抽取多个推理样本以提升响应准确性。

威斯康星大学麦迪逊分校和斯坦福大学的研究人员提出了 Train‑to‑Test (T2) scaling laws，一种同时优化模型参数规模、训练数据量以及测试时推理样本数量的框架。

实际应用中，该方法表明，与传统规则相比，计算上最优的做法是使用远多于传统建议的数据训练显著更小的模型，然后将节省的计算资源用于推理时生成多个重复样本。对于企业 AI 开发者而言，这提供了一套经验证的蓝图，能够在不依赖庞大前沿模型的情况下最大化投资回报率。

冲突的尺度法则

预训练尺度法则 决定在模型创建期间如何分配计算资源（例如，Chinchilla 规则约为每参数 20 个训练 token）。
测试时尺度法则 指导部署期间的计算分配，例如“让模型思考更久”或生成多个推理样本。

这两类法则是独立发展起来的，尽管它们本质上是相互交织的：

模型的参数规模和训练时长直接影响质量和每次查询的推理成本。
现代模型系列（Llama、Gemma、Qwen）常常 突破 Chinchilla 规则，通过在海量数据上对较小模型进行过度训练。

“在我看来，当每一次单独的推理调用成本高昂时，推理堆栈就会崩溃。这种情况发生在模型很大且需要大量重复采样时。” – Nicholas Roberts，合著者

由于训练和测试时尺度被孤立地研究，缺乏严格的框架来根据部署时所需的推理样本数量计算模型应当过度训练多少。因此，之前没有能够同时优化模型规模、训练数据量和测试时推理预算的公式。

困难在于预训练和测试时尺度使用 不同的数学语言：

预训练 性能通过 loss（平滑、连续的度量）来衡量。
测试时 性能通过下游指标如 pass@k 来评估，后者衡量在 k 次独立尝试中至少有一次正确答案的概率。

Train‑to‑Test (T2) 缩放定律

T2 框架将三个变量视为一个方程：

模型规模 (N) – 参数数量。
训练标记 (D) – 模型学习的数据量。
推理样本数 (k) – 测试时的推断尝试次数。

核心公式

基线训练成本: 6 · N · D
复合推理成本: 2 · N · k

研究人员探索了两种建模方法：

改进的 Chinchilla 方程 – 在传统基于损失的缩放定律中加入 k 变量，展示了增加推理计算如何降低整体误差。
直接 pass@k 模型 – 在给定特定计算预算的情况下预测下游准确率，帮助开发者了解在该预算下解决问题的概率。

适用范围

Roberts 指出 T2 高度专业化：

对 知识密集型应用（例如聊天模型）帮助不大。
针对 推理密集型任务（如编码）进行定制，重复抽样是常见的测试时缩放方法。

对开发者的意义

实证验证

测试了 100 多个语言模型，参数规模从 5 M 到 901 M 不等。
从头训练了 21 个全新、严重过度训练的检查点。
在 8 项多样任务（如 SciQ、OpenBookQA、合成算术、空间推理、知识回忆）上进行基准测试。

关键发现：

计算最优前沿 显著偏离 标准的 Chinchilla 缩放规律。
在固定预算下，最优模型 显著更小，且训练所需的数据 远多于 “每参数 20 token” 规则所暗示的量。
当计入测试时采样成本后，过度训练的小模型 在所有任务上始终优于更大的 Chinchilla 最优模型。

部署考虑

技术门槛低 – “使用我们当前的模型进行测试时缩放几乎不需要额外技巧。” – Roberts
KV 缓存 可以通过存储已处理的上下文，使采样更高效，避免对每个样本重新读取提示。

权衡

过度训练的模型可能 顽固且更难微调，尽管监督微调并未使最优模型回到 Chinchilla。
极端过度训练可能遭遇 “数据墙”——高质量训练数据耗尽。

实践步骤

选择一个紧凑模型，并在大规模 token 数据集上进行过度训练。
为重复采样 (k) 分配推理预算，而不是扩大模型规模。
实现 KV 缓存 或类似优化，以降低每次采样的开销。
监控微调行为；预期会有一定的刚性，但不足以抵消计算收益。

研究团队计划 开源检查点和代码，让企业能够立即接入自己的数据并测试缩放行为。

更广泛的影响

T2 在 AI 行业中提供了一种 平衡力量，通过降低构建强大推理模型的门槛。正如 Roberts 所总结的：

“你可能不需要巨大的计算预算就能实现最先进的推理。相反，你需要优质的数据以及对训练和推理预算的聪明分配。”

这种转变可能会让依赖推理的 代理应用 的开发民主化，减少对昂贵前沿模型的依赖。

Train-to-Test scaling 解释：如何优化端到端 AI 推理计算预算

Introduction

冲突的尺度法则

Train‑to‑Test (T2) 缩放定律

核心公式

适用范围

对开发者的意义

实证验证

部署考虑

权衡

实践步骤

更广泛的影响

相关文章

机器人在北京半程马拉松上打破人类纪录

类人机器人打破人类半程马拉松世界纪录

“Tokenmaxxing” 正在让开发者的生产力低于他们的预期

‘Tokenmaxxing’ 正在让开发者的生产力低于他们的预期