[论文] 为提示付费，而非答案：LLM Shepherding 用于成本高效推理

发布: 1周前 (2026年1月30日 GMT+8 02:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.22132v1

（请提供需要翻译的正文内容，我将按照要求进行简体中文翻译并保留原始格式。）

概述

大型语言模型（LLM）在解决复杂推理问题方面表现出色，但为每个查询运行它们的成本可能高得令人望而却步。本文提出了 LLM Shepherding，一种轻量级的“提示传递”方案，让廉价的小型语言模型（SLM）在仅收到大模型的一个短且策略性选择的前缀后完成任务。作者展示了，只需使用 LLM 回答的 10‑30 % 片段，就能显著提升 SLM 的准确率，同时在标准数学和编码基准上将推理成本削减高达 94 %。

关键贡献

基于提示的协作：引入一种令牌级接口，LLM 只提供部分响应（“提示”）以指导 SLM。
统一框架：展示 Shepherding 包含经典路由（跳过 LLM）和级联（完整 LLM 回答）作为特例。
两阶段预测器：开发轻量分类器，(1) 决定给定查询是否需要提示，(2) 预测从 LLM 请求多少令牌。
实证收益：在 GSM8K、CNK12（数学）和 HumanEval、MBPP（代码）上实现 42‑94 % 成本降低，同时保持与完整 LLM 推理相当的准确率。
首个令牌预算控制：开创细粒度预算管理用于 SLM‑LLM 合作，开启成本高效 AI 服务的新设计空间。

方法论

提示设计 – 对于每个输入（例如数学题），系统首先让大型语言模型（LLM）生成一个简短的前缀。该前缀故意限制在较小的 token 预算内（例如占典型完整答案的 10‑30 %）。
提示注入 – 小型语言模型（SLM）在提示中接收原始查询以及 LLM 的提示。随后 SLM 自行完成答案，利用 LLM 提供的高层次指导。
决策模型 – 一个轻量的二分类器预测提示对特定查询是否有益。如果答案为“是”，则第二个回归模型预测最佳提示长度（token 数量）。两个模型均在小规模验证集上训练，使用的特征包括查询长度、来自 SLM 的 token 级不确定性以及简单的词汇线索。
评估流程 – 作者在标准基准上比较三种流程：
- 仅 LLM（大模型的完整答案）
- 路由/级联（跳过或完整的 LLM 答案）
- 引导（提示 + SLM）
成本以处理的总 token 数衡量，准确率使用常规的完全匹配或 pass@k 指标。

结果与发现

基准	基线（仅 LLM）准确率	引导准确率	相较于仅 LLM 的成本降低
GSM8K	84.2 %	83.9 %	68 %
CNK12	78.5 %	78.1 %	72 %
HumanEval	71.3 % (pass@1)	71.0 %	58 %
MBPP	66.7 % (pass@1)	66.4 %	62 %

关键要点

提示成本低但效果显著 – 即使是 15 token 的提示，也能在困难的数学题上将 SLM 的成功率提升 5‑10 %。
成本‑准确度的最佳平衡点 – 引导在使用不到一半 token 预算的情况下匹配完整 LLM 的准确度；在最佳情况下，相比最强的路由/级联基线实现 2.8× 的成本节省。
跨领域的鲁棒性 – 同一提示生成策略可同时用于符号推理（数学）和过程生成（代码），无需特定领域的调优。

实际影响

API 定价模型 – 云服务提供商可以提供一个 “hint‑mode” 接口，以 SLM 速率对大部分工作按 token 收费，对 LLM 提示收取少量溢价。这使得高吞吐量服务（例如辅导机器人、代码助手）能够采用按使用付费的定价。
边缘部署 – 计算资源受限的设备可以在本地运行 SLM，并在需要时向远程 LLM 请求偶尔的提示，从而大幅降低带宽和延迟，同时保持答案质量。
开发者工具 – IDE 插件或笔记本助手可以先尝试使用 SLM；只有当置信度预测器标记出不确定性时才获取简洁提示，从而保持响应速度流畅。
预算感知编排 – 现有的 LLM 编排平台（如 LangChain、LlamaIndex）可以集成两阶段预测器，自动决定 “提示还是完整答案”，将 token 预算管理提升为一等功能。

限制与未来工作

Predictor overhead – 决策模型会增加少量推理成本；在超低延迟场景下，这可能抵消部分节省。
Hint quality dependence – 该方法假设大型语言模型能够生成有用且简洁的前缀。对于推理高度非线性的任务（例如开放式生成），简短提示可能不足。
Generalization to other modalities – 本研究聚焦于基于文本的数学和代码；将 Shepherding 扩展到视觉语言或多模态任务仍是未解之题。
Dynamic budgeting – 未来工作可以探索基于强化学习的代理，根据实时反馈动态调整提示长度，进一步收紧成本与准确性的权衡。

底线：LLM Shepherding 提供了一条务实且易于实现的路径，使开发者能够利用大型模型的智能而无需支付全部费用。通过将 LLM 视为“提示生成器”而非完整答案引擎，团队可以构建更廉价、更快速且仍然高度准确的 AI 服务。

作者

Ziming Dong
Hardik Sharma
Evan O’Toole
Jaya Prakash Champati
Kui Wu

论文信息

arXiv ID: 2601.22132v1
分类: cs.LG
出版日期: 2026年1月29日
PDF: 下载 PDF

[论文] 为提示付费，而非答案：LLM Shepherding 用于成本高效推理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈