[Paper] Conformal Thinking：风险控制用于计算预算下的推理

发布: 5天前 (2026年2月4日 GMT+8 02:17)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.03814v1

Overview

大型语言模型（LLMs）可以逐步“思考”，但每一步推理都会消耗 token（即计算资源）。当你给模型更多的 token 时，通常会更准确，但在实际生产中，你往往受到延迟或成本的硬性上限。本文将需要使用多少 token的问题重新表述为一个风险控制任务：在尽可能少使用计算资源的前提下，将错误率保持在用户定义的阈值以下。

关键贡献

风险受控停止框架 – 引入两个互补阈值（上限和下限），根据模型置信度决定何时停止推理。
无分布假设的风险校准 – 使用验证集来设定阈值，使得在不假设特定数据分布的情况下，仍能保证规定的错误率。
多预算场景的效率损失准则 – 当存在多个停止信号（例如 token 预算、延迟预算）时，方法会自动选择仍能满足风险目标的最廉价信号。
跨任务与模型的实证验证 – 在算术、符号和常识推理基准上展示了持续的计算节省，同时遵守目标风险。
开源实现 – 作者发布了代码和脚本，可直接集成到现有的 chain‑of‑thought 流程中。

方法论

双层停止规则
- 上限阈值 (τ_up): 如果模型对当前答案的置信度超过此值，它会提前退出，因为进一步推理不太可能改变答案。
- 下限阈值 (τ_low(θ)) 是参数化的: 它预测何时实例是不可解的（例如，模型会一直循环或发散）。如果置信度保持在此自适应界限以下，系统会中止该实例以避免浪费计算资源。
风险校准
- 收集一个带有真实标签的留出验证集。
- 对于每一对候选 (τ_up, θ)，计算已停止预测的经验错误率。
- 选择能够最小化预期令牌使用量的组合，同时以高概率保证 error ≤ target risk α（使用如 Hoeffding 界限等集中不等式）。
多预算下的效率损失
- 当你拥有例如硬令牌上限和延迟上限时，每个上限都会定义各自的停止规则。
- 算法在验证集上评估每个规则的效率损失（额外的令牌或时间），并选择在仍满足风险目标的前提下损失最小的规则。
实现细节
- 置信度来源于模型在最终答案令牌上的 softmax 概率（或来自辅助分类器）。
- 下限阈值被建模为推理步骤数量的简单线性函数，通过在验证集上进行网格搜索学习得到。

结果与发现

Model / Task	Target Risk (α)	Avg. Tokens Saved	Final Error Rate
GPT‑3.5 (arithmetic)	5 %	32 %	4.8 %
LLaMA‑2‑13B (symbolic)	3 %	27 %	2.9 %
PaLM‑2 (commonsense)	2 %	21 %	1.9 %

Lower‑threshold aborts（低阈值中止）贡献了大部分节省（≈ 15 % 的 token），通过提前终止无望的实例。
Upper‑threshold early exits（高阈值提前退出）又削减了约 10–12 % 的 token，因在置信度足够高时停止。
当两种阈值在 ensemble（集成）中结合时，系统在 > 99 % 的运行中保持在用户指定的风险界限内，验证了无分布假设的保证。
消融实验表明，朴素的固定预算基线要么超支（没有风险保证），要么表现不佳（错误率高）。

实际意义

成本感知的 API 服务 – 提供商可以公开一个“风险水平”旋钮（例如，1 % 错误率），让后端自动分配恰当数量的 token，从而降低每次调用的计费。
对延迟敏感的应用（聊天机器人、实时助理）可以保证响应时间，同时将幻觉（错误生成）控制在可接受范围。
边缘部署 – 计算资源受限的本地 LLM 可以在查询无法解决时提前中止，节省电池寿命。
模型无关的集成 – 该框架适用于任何能够输出置信分数的仅解码器 LLM，这意味着现有的思路链（chain‑of‑thought）流水线只需一个薄薄的包装层。
安全与合规 – 通过限制错误率，组织能够满足监管机构对 AI 可靠性的期望（例如在金融或医疗领域）。

限制与未来工作

Confidence calibration：该方法假设 softmax 概率是正确性的可靠代理；校准不佳的模型可能需要额外的 temperature scaling 或外部校准器。
Static validation set：风险阈值在留出的验证集上进行调优；生产环境中的分布漂移可能会削弱保证。自适应在线重新校准是一个待探索的方向。
Complex reasoning patterns：需要非单调推理（例如回溯）的任务可能无法被简单的单调 confidence 曲线充分捕捉。
Scalability of the lower‑threshold model：当前的线性参数形式可能不足以处理非常深的推理链；可以探索更丰富的模型（例如小型 RNN）。

底线：通过将 token budgeting 视为 risk‑control 问题，作者为开发者提供了一个原则性、即插即用的工具，能够在不牺牲 reliability 的前提下实现计算节省——这一进展有望使大规模推理 LLM 更加适合生产环境。

作者

Xi Wang
Anushri Suresh
Alvin Zhang
Rishi More
William Jurayj
Benjamin Van Durme
Mehrdad Farajtabar
Daniel Khashabi
Eric Nalisnick

论文信息

arXiv ID: 2602.03814v1
类别: cs.AI, cs.LG
出版日期: 2026年2月3日
PDF: 下载 PDF

[Paper] Conformal Thinking：风险控制用于计算预算下的推理

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同