[Paper] 大语言模型测试时计算规模化的艺术

发布: 3天前 (2025年12月2日 GMT+8 02:59)

6 min read

原文: arXiv

Source: arXiv - 2512.02008v1

概览

本文首次系统、规模化地比较了大语言模型（LLM）的 测试时缩放（TTS） 技术。通过在八个开源模型（7 B–235 B 参数）和四个推理基准上生成超过 30 B token，作者揭示了不同 TTS 策略如何与模型规模、问题难度以及计算预算相互作用——为需要在 LLM 推理中榨取最大性能的开发者提供了实用手册。

主要贡献

全面基准：在相同实验条件下，使用八个公开可用的 LLM 在四个推理数据集上生成了 30 B+ token。
TTS 行为的经验分类：识别出三条稳健趋势：
1. 没有通用最佳的 TTS 方法。
2. 模型可根据不同难度下的轨迹质量划分为 “短视域” 与 “长视域”。
3. 给定模型的最佳性能随分配的计算预算单调提升。
实用选择配方：提供一套决策指南，将问题难度、模型系列和计算预算映射到最有效的 TTS 策略。
开源成果：发布代码、提示词和原始日志，以实现可重复性并促进进一步实验。

方法论

模型与规模：八个开源 LLM，参数量从 7 B 到 235 B（如 LLaMA‑2、Falcon、Mistral）。
数据集：四个推理密集型基准（如 GSM‑8K、MathQA、CommonsenseQA 以及多步逻辑推理集合）。
评估的 TTS 策略：
- 固定预算采样（静态 temperature、top‑k）。
- 动态预算方法，如 early‑exit、adaptive temperature、以及 step‑wise token budget allocation。
计算预算定义：以每 token 的 FLOP 或实际时钟时间衡量，范围从低（≈ 0.5× 基线）到高（≈ 2× 基线）。
指标：准确率 / 完全匹配、轨迹长度、token 级置信度以及计算效率（每 FLOP 的准确率）。
实验控制：统一提示词、相同随机种子、相同硬件（A100 GPU），以隔离 TTS 算法本身的影响。

结果与发现

观察	数据显示的内容
没有通用的赢家	诸如 early‑exit 在简单任务上表现出色，但在更难的多步问题上落后于 adaptive temperature。
短视域 vs. 长视域模型	小模型（≤ 13 B）倾向于生成高质量的短轨迹；大模型（≥ 70 B）在困难问题上受益于更长、更具探索性的轨迹。
随预算单调扩展	对于任意固定的模型‑策略组合，提升计算预算总能提升准确率，只是收益在一定点后递减。
效率最佳点	采用适度预算（≈ 1.2× 基线）的 adaptive temperature 能在使用约 30 % 更少计算的情况下匹配或超越最佳固定预算结果。
跨模型一致性	这三条趋势在所有八个模型上均成立，表明它们是 LLM 推理过程的属性，而非单一架构的特例。

实际意义

动态推理流水线：开发者可以嵌入 自适应 TTS 控制器，对快速、低风险查询使用 early‑exit，对复杂推理切换到 adaptive temperature，从而实时在延迟与准确率之间做权衡。
成本感知部署：云服务提供商可以向终端用户公开一个 “计算预算” 调节钮；本文的配方指明在每个预算层级应启用哪种 TTS 方法，减少不必要的 GPU 秒数。
模型规模选择：在硬件受限的情况下，选用中等规模模型（≈ 30 B）并配合调优的自适应预算策略，可能比使用更大模型且采用朴素固定预算更具优势，从而节省显存和推理成本。
工具与库：已发布的代码可封装进主流推理框架（如 Hugging Face Transformers、vLLM），为开发者提供开箱即用的推荐 TTS 策略支持。
基准标准：该研究为未来的 TTS 研究设定了基线，鼓励社区报告计算预算曲线，而非单点准确率。

局限性与未来工作

数据集范围：仅使用了四个推理基准；领域特定任务（如代码生成、对话）可能呈现不同的 TTS 动态。
硬件多样性：实验在 A100 GPU 上进行；在 CPU、TPU 或边缘加速器上的表现可能会改变最优策略。
模型系列偏差：全部模型均为基于 Transformer 的开源发布；专有架构（如 PaLM、GPT‑4）可能行为不同。
未来方向：将分析扩展到多模态 LLM，探索基于强化学习的 TTS 控制器，并集成用户反馈回路以实现实时预算调节。

作者

Aradhye Agarwal
Ayan Sengupta
Tanmoy Chakraborty

论文信息

arXiv ID: 2512.02008v1
分类: cs.CL
发表时间: 2025 年 12 月 1 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

最近的统一多模态大语言模型（MLLMs）展示了令人印象深刻的能力，结合了链式思考（CoT）推理，以增强文本到-...

[Paper] 语义软引导：在 LLMs 中进行长上下文推理，无需强化学习

在大型语言模型（LLMs）中，长上下文推理已通过链式思考（CoT）推断展示了其认知能力的提升。训练...

[Paper] 结构化文档翻译通过格式强化学习

最近关于结构化文本翻译的研究仍局限于句子层面，因为它们难以有效处理复杂的文档级 XML 或 HTML …

[Paper] 多LLM协作用于药物推荐

随着医疗保健日益转向 AI，以实现可扩展且可信赖的临床决策支持，确保模型推理的可靠性仍然是一个关键挑战。