[Paper] 大语言模型测试时计算规模化的艺术

发布: (2025年12月2日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.02008v1

概览

本文首次系统、规模化地比较了大语言模型(LLM)的 测试时缩放(TTS) 技术。通过在八个开源模型(7 B–235 B 参数)和四个推理基准上生成超过 30 B token,作者揭示了不同 TTS 策略如何与模型规模、问题难度以及计算预算相互作用——为需要在 LLM 推理中榨取最大性能的开发者提供了实用手册。

主要贡献

  • 全面基准:在相同实验条件下,使用八个公开可用的 LLM 在四个推理数据集上生成了 30 B+ token。
  • TTS 行为的经验分类:识别出三条稳健趋势:
    1. 没有通用最佳的 TTS 方法。
    2. 模型可根据不同难度下的轨迹质量划分为 “短视域” 与 “长视域”。
    3. 给定模型的最佳性能随分配的计算预算单调提升。
  • 实用选择配方:提供一套决策指南,将问题难度、模型系列和计算预算映射到最有效的 TTS 策略。
  • 开源成果:发布代码、提示词和原始日志,以实现可重复性并促进进一步实验。

方法论

  1. 模型与规模:八个开源 LLM,参数量从 7 B 到 235 B(如 LLaMA‑2、Falcon、Mistral)。
  2. 数据集:四个推理密集型基准(如 GSM‑8K、MathQA、CommonsenseQA 以及多步逻辑推理集合)。
  3. 评估的 TTS 策略
    • 固定预算采样(静态 temperature、top‑k)。
    • 动态预算方法,如 early‑exitadaptive temperature、以及 step‑wise token budget allocation
  4. 计算预算定义:以每 token 的 FLOP 或实际时钟时间衡量,范围从低(≈ 0.5× 基线)到高(≈ 2× 基线)。
  5. 指标:准确率 / 完全匹配、轨迹长度、token 级置信度以及计算效率(每 FLOP 的准确率)。
  6. 实验控制:统一提示词、相同随机种子、相同硬件(A100 GPU),以隔离 TTS 算法本身的影响。

结果与发现

观察数据显示的内容
没有通用的赢家诸如 early‑exit 在简单任务上表现出色,但在更难的多步问题上落后于 adaptive temperature。
短视域 vs. 长视域模型小模型(≤ 13 B)倾向于生成高质量的短轨迹;大模型(≥ 70 B)在困难问题上受益于更长、更具探索性的轨迹。
随预算单调扩展对于任意固定的模型‑策略组合,提升计算预算总能提升准确率,只是收益在一定点后递减。
效率最佳点采用适度预算(≈ 1.2× 基线)的 adaptive temperature 能在使用约 30 % 更少计算的情况下匹配或超越最佳固定预算结果。
跨模型一致性这三条趋势在所有八个模型上均成立,表明它们是 LLM 推理过程的属性,而非单一架构的特例。

实际意义

  • 动态推理流水线:开发者可以嵌入 自适应 TTS 控制器,对快速、低风险查询使用 early‑exit,对复杂推理切换到 adaptive temperature,从而实时在延迟与准确率之间做权衡。
  • 成本感知部署:云服务提供商可以向终端用户公开一个 “计算预算” 调节钮;本文的配方指明在每个预算层级应启用哪种 TTS 方法,减少不必要的 GPU 秒数。
  • 模型规模选择:在硬件受限的情况下,选用中等规模模型(≈ 30 B)并配合调优的自适应预算策略,可能比使用更大模型且采用朴素固定预算更具优势,从而节省显存和推理成本。
  • 工具与库:已发布的代码可封装进主流推理框架(如 Hugging Face Transformers、vLLM),为开发者提供开箱即用的推荐 TTS 策略支持。
  • 基准标准:该研究为未来的 TTS 研究设定了基线,鼓励社区报告计算预算曲线,而非单点准确率。

局限性与未来工作

  • 数据集范围:仅使用了四个推理基准;领域特定任务(如代码生成、对话)可能呈现不同的 TTS 动态。
  • 硬件多样性:实验在 A100 GPU 上进行;在 CPU、TPU 或边缘加速器上的表现可能会改变最优策略。
  • 模型系列偏差:全部模型均为基于 Transformer 的开源发布;专有架构(如 PaLM、GPT‑4)可能行为不同。
  • 未来方向:将分析扩展到多模态 LLM,探索基于强化学习的 TTS 控制器,并集成用户反馈回路以实现实时预算调节。

作者

  • Aradhye Agarwal
  • Ayan Sengupta
  • Tanmoy Chakraborty

论文信息

  • arXiv ID: 2512.02008v1
  • 分类: cs.CL
  • 发表时间: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »