[Paper] Conformal Thinking:风险控制用于计算预算下的推理

发布: (2026年2月4日 GMT+8 02:17)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.03814v1

Overview

大型语言模型(LLMs)可以逐步“思考”,但每一步推理都会消耗 token(即计算资源)。当你给模型更多的 token 时,通常会更准确,但在实际生产中,你往往受到延迟或成本的硬性上限。本文将需要使用多少 token的问题重新表述为一个风险控制任务:在尽可能少使用计算资源的前提下,将错误率保持在用户定义的阈值以下。

关键贡献

  • 风险受控停止框架 – 引入两个互补阈值(上限和下限),根据模型置信度决定何时停止推理。
  • 无分布假设的风险校准 – 使用验证集来设定阈值,使得在不假设特定数据分布的情况下,仍能保证规定的错误率。
  • 多预算场景的效率损失准则 – 当存在多个停止信号(例如 token 预算、延迟预算)时,方法会自动选择仍能满足风险目标的最廉价信号。
  • 跨任务与模型的实证验证 – 在算术、符号和常识推理基准上展示了持续的计算节省,同时遵守目标风险。
  • 开源实现 – 作者发布了代码和脚本,可直接集成到现有的 chain‑of‑thought 流程中。

方法论

  1. 双层停止规则

    • 上限阈值 (τ_up): 如果模型对当前答案的置信度超过此值,它会提前退出,因为进一步推理不太可能改变答案。
    • 下限阈值 (τ_low(θ)) 是参数化的: 它预测何时实例是不可解的(例如,模型会一直循环或发散)。如果置信度保持在此自适应界限以下,系统会中止该实例以避免浪费计算资源。
  2. 风险校准

    • 收集一个带有真实标签的留出验证集。
    • 对于每一对候选 (τ_up, θ),计算已停止预测的经验错误率。
    • 选择能够最小化预期令牌使用量的组合,同时以高概率保证 error ≤ target risk α(使用如 Hoeffding 界限等集中不等式)。
  3. 多预算下的效率损失

    • 当你拥有例如硬令牌上限延迟上限时,每个上限都会定义各自的停止规则。
    • 算法在验证集上评估每个规则的效率损失(额外的令牌或时间),并选择在仍满足风险目标的前提下损失最小的规则。
  4. 实现细节

    • 置信度来源于模型在最终答案令牌上的 softmax 概率(或来自辅助分类器)。
    • 下限阈值被建模为推理步骤数量的简单线性函数,通过在验证集上进行网格搜索学习得到。

结果与发现

Model / TaskTarget Risk (α)Avg. Tokens SavedFinal Error Rate
GPT‑3.5 (arithmetic)5 %32 %4.8 %
LLaMA‑2‑13B (symbolic)3 %27 %2.9 %
PaLM‑2 (commonsense)2 %21 %1.9 %
  • Lower‑threshold aborts(低阈值中止)贡献了大部分节省(≈ 15 % 的 token),通过提前终止无望的实例。
  • Upper‑threshold early exits(高阈值提前退出)又削减了约 10–12 % 的 token,因在置信度足够高时停止。
  • 当两种阈值在 ensemble(集成)中结合时,系统在 > 99 % 的运行中保持在用户指定的风险界限内,验证了无分布假设的保证。
  • 消融实验表明,朴素的固定预算基线要么超支(没有风险保证),要么表现不佳(错误率高)。

实际意义

  • 成本感知的 API 服务 – 提供商可以公开一个“风险水平”旋钮(例如,1 % 错误率),让后端自动分配恰当数量的 token,从而降低每次调用的计费。
  • 对延迟敏感的应用(聊天机器人、实时助理)可以保证响应时间,同时将幻觉(错误生成)控制在可接受范围。
  • 边缘部署 – 计算资源受限的本地 LLM 可以在查询无法解决时提前中止,节省电池寿命。
  • 模型无关的集成 – 该框架适用于任何能够输出置信分数的仅解码器 LLM,这意味着现有的思路链(chain‑of‑thought)流水线只需一个薄薄的包装层。
  • 安全与合规 – 通过限制错误率,组织能够满足监管机构对 AI 可靠性的期望(例如在金融或医疗领域)。

限制与未来工作

  • Confidence calibration:该方法假设 softmax 概率是正确性的可靠代理;校准不佳的模型可能需要额外的 temperature scaling 或外部校准器。
  • Static validation set:风险阈值在留出的验证集上进行调优;生产环境中的分布漂移可能会削弱保证。自适应在线重新校准是一个待探索的方向。
  • Complex reasoning patterns:需要非单调推理(例如回溯)的任务可能无法被简单的单调 confidence 曲线充分捕捉。
  • Scalability of the lower‑threshold model:当前的线性参数形式可能不足以处理非常深的推理链;可以探索更丰富的模型(例如小型 RNN)。

底线:通过将 token budgeting 视为 risk‑control 问题,作者为开发者提供了一个原则性、即插即用的工具,能够在不牺牲 reliability 的前提下实现计算节省——这一进展有望使大规模推理 LLM 更加适合生产环境。

作者

  • Xi Wang
  • Anushri Suresh
  • Alvin Zhang
  • Rishi More
  • William Jurayj
  • Benjamin Van Durme
  • Mehrdad Farajtabar
  • Daniel Khashabi
  • Eric Nalisnick

论文信息

  • arXiv ID: 2602.03814v1
  • 类别: cs.AI, cs.LG
  • 出版日期: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……