[论文] 为提示付费,而非答案:LLM Shepherding 用于成本高效推理

发布: (2026年1月30日 GMT+8 02:52)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.22132v1

(请提供需要翻译的正文内容,我将按照要求进行简体中文翻译并保留原始格式。)

概述

大型语言模型(LLM)在解决复杂推理问题方面表现出色,但为每个查询运行它们的成本可能高得令人望而却步。本文提出了 LLM Shepherding,一种轻量级的“提示传递”方案,让廉价的小型语言模型(SLM)在仅收到大模型的一个短且策略性选择的前缀后完成任务。作者展示了,只需使用 LLM 回答的 10‑30 % 片段,就能显著提升 SLM 的准确率,同时在标准数学和编码基准上将推理成本削减高达 94 %。

关键贡献

  • 基于提示的协作:引入一种令牌级接口,LLM 只提供部分响应(“提示”)以指导 SLM。
  • 统一框架:展示 Shepherding 包含经典路由(跳过 LLM)和级联(完整 LLM 回答)作为特例。
  • 两阶段预测器:开发轻量分类器,(1) 决定给定查询是否需要提示,(2) 预测从 LLM 请求多少令牌。
  • 实证收益:在 GSM8K、CNK12(数学)和 HumanEval、MBPP(代码)上实现 42‑94 % 成本降低,同时保持与完整 LLM 推理相当的准确率。
  • 首个令牌预算控制:开创细粒度预算管理用于 SLM‑LLM 合作,开启成本高效 AI 服务的新设计空间。

方法论

  1. 提示设计 – 对于每个输入(例如数学题),系统首先让大型语言模型(LLM)生成一个简短的前缀。该前缀故意限制在较小的 token 预算内(例如占典型完整答案的 10‑30 %)。

  2. 提示注入 – 小型语言模型(SLM)在提示中接收原始查询 以及 LLM 的提示。随后 SLM 自行完成答案,利用 LLM 提供的高层次指导。

  3. 决策模型 – 一个轻量的二分类器预测提示对特定查询是否有益。如果答案为“是”,则第二个回归模型预测最佳提示长度(token 数量)。两个模型均在小规模验证集上训练,使用的特征包括查询长度、来自 SLM 的 token 级不确定性以及简单的词汇线索。

  4. 评估流程 – 作者在标准基准上比较三种流程:

    • 仅 LLM(大模型的完整答案)
    • 路由/级联(跳过或完整的 LLM 答案)
    • 引导(提示 + SLM)

    成本以处理的总 token 数衡量,准确率使用常规的完全匹配或 pass@k 指标。

结果与发现

基准基线(仅 LLM)准确率引导准确率相较于仅 LLM 的成本降低
GSM8K84.2 %83.9 %68 %
CNK1278.5 %78.1 %72 %
HumanEval71.3 % (pass@1)71.0 %58 %
MBPP66.7 % (pass@1)66.4 %62 %

关键要点

  • 提示成本低但效果显著 – 即使是 15 token 的提示,也能在困难的数学题上将 SLM 的成功率提升 5‑10 %。
  • 成本‑准确度的最佳平衡点 – 引导在使用不到一半 token 预算的情况下匹配完整 LLM 的准确度;在最佳情况下,相比最强的路由/级联基线实现 2.8× 的成本节省。
  • 跨领域的鲁棒性 – 同一提示生成策略可同时用于符号推理(数学)和过程生成(代码),无需特定领域的调优。

实际影响

  • API 定价模型 – 云服务提供商可以提供一个 “hint‑mode” 接口,以 SLM 速率对大部分工作按 token 收费,对 LLM 提示收取少量溢价。这使得高吞吐量服务(例如辅导机器人、代码助手)能够采用按使用付费的定价。
  • 边缘部署 – 计算资源受限的设备可以在本地运行 SLM,并在需要时向远程 LLM 请求偶尔的提示,从而大幅降低带宽和延迟,同时保持答案质量。
  • 开发者工具 – IDE 插件或笔记本助手可以先尝试使用 SLM;只有当置信度预测器标记出不确定性时才获取简洁提示,从而保持响应速度流畅。
  • 预算感知编排 – 现有的 LLM 编排平台(如 LangChain、LlamaIndex)可以集成两阶段预测器,自动决定 “提示还是完整答案”,将 token 预算管理提升为一等功能。

限制与未来工作

  • Predictor overhead – 决策模型会增加少量推理成本;在超低延迟场景下,这可能抵消部分节省。
  • Hint quality dependence – 该方法假设大型语言模型能够生成有用且简洁的前缀。对于推理高度非线性的任务(例如开放式生成),简短提示可能不足。
  • Generalization to other modalities – 本研究聚焦于基于文本的数学和代码;将 Shepherding 扩展到视觉语言或多模态任务仍是未解之题。
  • Dynamic budgeting – 未来工作可以探索基于强化学习的代理,根据实时反馈动态调整提示长度,进一步收紧成本与准确性的权衡。

底线:LLM Shepherding 提供了一条务实且易于实现的路径,使开发者能够利用大型模型的智能而无需支付全部费用。通过将 LLM 视为“提示生成器”而非完整答案引擎,团队可以构建更廉价、更快速且仍然高度准确的 AI 服务。

作者

  • Ziming Dong
  • Hardik Sharma
  • Evan O’Toole
  • Jaya Prakash Champati
  • Kui Wu

论文信息

  • arXiv ID: 2601.22132v1
  • 分类: cs.LG
  • 出版日期: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »