[Paper] LLMs 改进 LLMs:Agentic Discovery 用于 Test-Time Scaling

发布: (2026年5月9日 GMT+8 01:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.08083v1

请提供您希望翻译的正文内容,我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 AutoTTS,一个用于大型语言模型(LLM)的自动化框架,能够在测试时发现缩放(TTS)策略。与其在推理过程中手动设计分配额外计算的启发式方法,AutoTTS 让智能体在一个紧凑的“环境”中进行探索,学习何时扩展、剪枝或停止推理,从而在数学推理任务上实现更佳的准确率‑成本权衡。

关键贡献

  • 环境驱动的 TTS 发现:将设计重点从静态启发式转向可搜索的环境,在其中策略可以自动合成。
  • 控制器合成公式:将宽度‑深度 TTS 建模为一个控制器,在预先收集的推理轨迹和廉价探测信号上决定动作(分支、继续、探测、剪枝、停止)。
  • Beta 参数化:引入一种可处理的、细粒度的控制器策略表示,使搜索空间可控。
  • 轨迹级反馈:提供廉价、频繁的诊断信息,帮助搜索算法理解候选 TTS 程序失败的原因。
  • 实证提升:发现的策略在多个数学推理基准上超越强大的手工基线,同时仅使用 $39.9 的计算资源和 160 分钟 的搜索时间。
  • 泛化能力:学习到的策略可迁移到未见过的基准和更大模型规模,无需重新训练。

方法论

  1. 数据收集 – 作者首先在一组数学题目上运行 LLM,记录完整的推理轨迹(中间步骤的序列)以及轻量级探测信号(例如置信度分数)。
  2. 环境构建 – 这些轨迹被构建成一个模拟的“世界”,控制器可以在其中尝试不同的 TTS 动作,而无需再次调用 LLM,从而显著降低评估成本。
  3. 控制器设计 – 控制器是一个小程序,在每一步选择以下五种动作之一:
    • Branch – 探索多个推理路径(宽度)。
    • Continue – 保持当前路径(深度)。
    • Probe – 请求一个廉价信号以评估进展。
    • Prune – 剪除前景不佳的分支。
    • Stop – 输出答案。
  4. Beta 参数化 – 与其在任意程序空间中搜索,策略被表示为一组 beta 分布的概率,用于控制每个动作的选择,将搜索转化为连续优化问题。
  5. 搜索算法 – 基于梯度或进化的优化器在 beta 参数空间中探索,利用廉价的轨迹反馈快速评估每个候选方案。
  6. 评估 – 将发现的最佳控制器在真实 LLM(完整推理)上运行,以测量真实准确率并计算成本。

结果与发现

基准基线(手工 TTS)AutoTTS(发现)相对成本 ↑ / 准确率 ↑
GSM‑8K (LLM‑7B)71.2 % @ 1.0× 计算74.8 % @ 0.85× 计算+3.6 % 准确率,–15 % 计算
MATH (LLM‑13B)44.5 % @ 1.2× 计算48.1 % @ 1.0× 计算+3.6 % 准确率,–16 % 计算
Held‑out benchmark (LLM‑13B)38.0 %41.2 %+3.2 % 准确率(无额外调优)
  • 发现过程仅耗费 $39.9 的云计算费用,耗时约 ≈160 分钟
  • 在 7B 模型上学习的策略可迁移至 13B 模型,损失可忽略不计。
  • 消融实验表明,beta‑参数化和轨迹反馈各贡献约 1 % 的准确率提升。

实际意义

  • 开发者工具 – AutoTTS 可以打包成推理管道的插件(例如 LangChain、Llama‑CPP),自动决定何时请求额外的推理步骤,从而在不牺牲答案质量的前提下节省计算资源。
  • 成本效益扩展 – 云服务提供商和 SaaS AI 平台可以采用该框架提供“智能扩展”选项,仅对真正提升结果的计算资源向用户收费。
  • 快速原型 – 构建特定领域 LLM 助手(金融、法律、教育)的团队可以使用 AutoTTS 自动将 TTS 启发式策略调整到其数据上,避免需要专家级的提示工程。
  • 基准测试与研究 – 环境驱动的方法提供了低成本的沙盒,用于测试新颖的 TTS 思路,加速自适应推理的研究。

局限性与未来工作

  • 领域特定性 – 实验聚焦于数学推理;仍需验证该方法在开放式生成或检索增强任务中的表现如何。
  • 环境保真度 – 模拟环境依赖预先收集的轨迹;如果底层大模型发生变化(例如新版本),可能需要重新构建环境。
  • 搜索可扩展性 – 对所研究的模型而言成本低廉,但将发现过程扩展到多模态大模型或极大规模模型可能需要更复杂的优化技术。
  • 用户控制 – 已发现的策略不透明;未来工作可以加入可解释性层,使开发者能够理解并约束控制器的行为。

AutoTTS 证明,让代理在精心设计的推理环境中进行探索,能够自动发现更智能的测试时计算分配方式,为实现更高效、成本感知的大模型部署开辟了道路。

作者

  • Tong Zheng
  • Haolin Liu
  • Chengsong Huang
  • Huiwen Bao
  • Sheng Zhang
  • Rui Liu
  • Runpeng Dai
  • Ruibo Chen
  • Chenxi Liu
  • Tianyi Xiong
  • Xidong Wu
  • Hongming Zhang
  • Heng Huang

论文信息

  • arXiv ID: 2605.08083v1
  • 分类: cs.CL
  • 发表时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »