[论文] 为提示付费,而非答案:LLM Shepherding 用于成本高效推理
Source: arXiv - 2601.22132v1
(请提供需要翻译的正文内容,我将按照要求进行简体中文翻译并保留原始格式。)
概述
大型语言模型(LLM)在解决复杂推理问题方面表现出色,但为每个查询运行它们的成本可能高得令人望而却步。本文提出了 LLM Shepherding,一种轻量级的“提示传递”方案,让廉价的小型语言模型(SLM)在仅收到大模型的一个短且策略性选择的前缀后完成任务。作者展示了,只需使用 LLM 回答的 10‑30 % 片段,就能显著提升 SLM 的准确率,同时在标准数学和编码基准上将推理成本削减高达 94 %。
关键贡献
- 基于提示的协作:引入一种令牌级接口,LLM 只提供部分响应(“提示”)以指导 SLM。
- 统一框架:展示 Shepherding 包含经典路由(跳过 LLM)和级联(完整 LLM 回答)作为特例。
- 两阶段预测器:开发轻量分类器,(1) 决定给定查询是否需要提示,(2) 预测从 LLM 请求多少令牌。
- 实证收益:在 GSM8K、CNK12(数学)和 HumanEval、MBPP(代码)上实现 42‑94 % 成本降低,同时保持与完整 LLM 推理相当的准确率。
- 首个令牌预算控制:开创细粒度预算管理用于 SLM‑LLM 合作,开启成本高效 AI 服务的新设计空间。
方法论
-
提示设计 – 对于每个输入(例如数学题),系统首先让大型语言模型(LLM)生成一个简短的前缀。该前缀故意限制在较小的 token 预算内(例如占典型完整答案的 10‑30 %)。
-
提示注入 – 小型语言模型(SLM)在提示中接收原始查询 以及 LLM 的提示。随后 SLM 自行完成答案,利用 LLM 提供的高层次指导。
-
决策模型 – 一个轻量的二分类器预测提示对特定查询是否有益。如果答案为“是”,则第二个回归模型预测最佳提示长度(token 数量)。两个模型均在小规模验证集上训练,使用的特征包括查询长度、来自 SLM 的 token 级不确定性以及简单的词汇线索。
-
评估流程 – 作者在标准基准上比较三种流程:
- 仅 LLM(大模型的完整答案)
- 路由/级联(跳过或完整的 LLM 答案)
- 引导(提示 + SLM)
成本以处理的总 token 数衡量,准确率使用常规的完全匹配或 pass@k 指标。
结果与发现
| 基准 | 基线(仅 LLM)准确率 | 引导准确率 | 相较于仅 LLM 的成本降低 |
|---|---|---|---|
| GSM8K | 84.2 % | 83.9 % | 68 % |
| CNK12 | 78.5 % | 78.1 % | 72 % |
| HumanEval | 71.3 % (pass@1) | 71.0 % | 58 % |
| MBPP | 66.7 % (pass@1) | 66.4 % | 62 % |
关键要点
- 提示成本低但效果显著 – 即使是 15 token 的提示,也能在困难的数学题上将 SLM 的成功率提升 5‑10 %。
- 成本‑准确度的最佳平衡点 – 引导在使用不到一半 token 预算的情况下匹配完整 LLM 的准确度;在最佳情况下,相比最强的路由/级联基线实现 2.8× 的成本节省。
- 跨领域的鲁棒性 – 同一提示生成策略可同时用于符号推理(数学)和过程生成(代码),无需特定领域的调优。
实际影响
- API 定价模型 – 云服务提供商可以提供一个 “hint‑mode” 接口,以 SLM 速率对大部分工作按 token 收费,对 LLM 提示收取少量溢价。这使得高吞吐量服务(例如辅导机器人、代码助手)能够采用按使用付费的定价。
- 边缘部署 – 计算资源受限的设备可以在本地运行 SLM,并在需要时向远程 LLM 请求偶尔的提示,从而大幅降低带宽和延迟,同时保持答案质量。
- 开发者工具 – IDE 插件或笔记本助手可以先尝试使用 SLM;只有当置信度预测器标记出不确定性时才获取简洁提示,从而保持响应速度流畅。
- 预算感知编排 – 现有的 LLM 编排平台(如 LangChain、LlamaIndex)可以集成两阶段预测器,自动决定 “提示还是完整答案”,将 token 预算管理提升为一等功能。
限制与未来工作
- Predictor overhead – 决策模型会增加少量推理成本;在超低延迟场景下,这可能抵消部分节省。
- Hint quality dependence – 该方法假设大型语言模型能够生成有用且简洁的前缀。对于推理高度非线性的任务(例如开放式生成),简短提示可能不足。
- Generalization to other modalities – 本研究聚焦于基于文本的数学和代码;将 Shepherding 扩展到视觉语言或多模态任务仍是未解之题。
- Dynamic budgeting – 未来工作可以探索基于强化学习的代理,根据实时反馈动态调整提示长度,进一步收紧成本与准确性的权衡。
底线:LLM Shepherding 提供了一条务实且易于实现的路径,使开发者能够利用大型模型的智能而无需支付全部费用。通过将 LLM 视为“提示生成器”而非完整答案引擎,团队可以构建更廉价、更快速且仍然高度准确的 AI 服务。
作者
- Ziming Dong
- Hardik Sharma
- Evan O’Toole
- Jaya Prakash Champati
- Kui Wu
论文信息
- arXiv ID: 2601.22132v1
- 分类: cs.LG
- 出版日期: 2026年1月29日
- PDF: 下载 PDF