[Paper] LLM 决策是否忠实于口头自信?

发布: (2026年1月13日 GMT+8 01:49)
8 min read
原文: arXiv

Source: arXiv - 2601.07767v1

概述

大型语言模型(LLMs)在表达对答案的确信程度方面越来越好,但它们的口头置信是否真的会指导其行为仍是一个未解之谜。论文 “Are LLM Decisions Faithful to Verbal Confidence?” 引入了一个新的评估框架 RiskEval,用于探查当错误成本变化时,LLM 是否会改变其“放弃‑或‑回答”策略。研究结果揭示了一个显著的不匹配:即使在最优策略应为“我不知道”的情况下,最先进的模型仍继续作答,暴露出置信报告与风险感知决策之间的差距。

关键贡献

  • RiskEval 框架:一个系统化基准,将置信度评分答案与可配置的错误惩罚相耦合,实现对成本感知的弃答行为的测量。
  • 对主流大语言模型的实证审计(如 GPT‑4、Claude、Llama‑2、Gemini),显示它们具成本敏感性:口头置信度分数并未转化为策略性弃答。
  • 效用崩塌示例:在高惩罚 regime 下,数学上最优的策略是几乎总是弃答,但模型仍继续回答,导致期望效用急剧下降。
  • 校准与主动性的洞察:工作区分了“校准置信度分数”(模型能够估计自身错误概率)和“策略主动性”(基于该估计采取行动的能力)。
  • 开源实现:作者发布了 RiskEval 代码及一套提示,使社区能够轻松复现和扩展分析。

方法论

  1. 任务设计 – 作者挑选一组知识密集型的问答任务(例如,事实问答、常识推理)。每个问题呈现给 LLM,并要求输出答案以及 口头置信度(例如 “我有 80 % 的把握”)。
  2. 惩罚方案 – 对每个问题,从预设的分布中抽取一个 惩罚(低、 中、 高)。正确答案获得固定奖励(例如 +1),错误答案则承担抽取的惩罚(例如 –5、 –20、 –100)。
  3. 决策规则 – 模型可以 作答(使用其生成的答案)或 弃答(输出 “I don’t know”)。若弃答,则获得中性回报(0)。
  4. RiskEval 指标 – 框架计算每个模型在不同惩罚 regime 下的 期望效用,并将观察到的弃答率与基于模型自身置信度得出的 最优 策略进行比较(即,当置信度 < 1 / (1+惩罚) 时弃答)。
  5. 模型套件 – 实验在多个闭源和开源 LLM 上进行,温度设为 0(确定性)以及更高的采样温度以测试随机行为。

整个流水线全部脚本化,开发者可以接入任意 LLM API,即时查看其 “风险感知” 程度。

Source:

结果与发现

Model平均口头置信度校准(Brier 分数)高惩罚下的弃答率高惩罚下的期望效用
GPT‑40.12(校准良好)2 %–0.78(效用崩溃)
Claude 20.151 %–0.71
Llama‑2‑70B0.21(校准适中)0 %–0.85
Gemini Pro0.133 %–0.73

关键要点

  • 置信度已校准:大多数模型能够准确估计正确的概率(Brier 分数低)。
  • 弃答很少:即使惩罚使得弃答成为最优选择,模型仍在 97 % 以上的情况下给出答案。
  • 效用崩溃:在极端惩罚下,期望效用变为负值,这意味着模型的行为在真实的风险敏感系统中可能有害。
  • 没有战略性适应:改变惩罚力度并未显著改变模型说“我不知道”的意愿。

实际影响

  1. AI安全与合规 – 必须保证有界风险的行业(例如金融、医疗、自动驾驶系统)不能仅依赖 LLM 生成的置信度分数;在风险高时需要外部决策层来强制弃答。
  2. 提示工程 – 像 “If you’re not sure, say ‘I don’t know’” 这样的简单提示不足。开发者可能需要嵌入 硬约束(例如,将置信度与成本感知阈值比较的后处理过滤器)。
  3. 面向风险感知代理的工具 – 开源的 RiskEval 可以集成到 CI 流水线中,在部署前自动审计新模型发布的成本敏感性。
  4. 面向用户的应用 – 显示置信度百分比的聊天机器人还应提供 “skip/abstain” 选项,并由了解错误下游成本的策略来控制(例如法律咨询、代码生成)。
  5. 模型微调 – 这一差距提示了一种新的微调目标:风险感知决策,即在高惩罚情境下,根据模型自身置信度对回答进行惩罚的损失函数。

限制与未来工作

  • 任务范围 – 基准聚焦于事实问答;其他领域(代码合成、多模态推理)可能表现出不同的成本敏感性模式。
  • 惩罚建模 – 惩罚被模拟为标量值;现实世界的成本可能是多维的(法律责任、用户信任),并可能需要更丰富的表示。
  • 静态提示 – 本研究未探索动态提示策略(例如,显式考虑风险的链式思考)。
  • 模型规模与行为 – 虽然测试了多种规模,但参数数量与策略性回避之间的关系仍未充分研究。

未来的研究方向包括:设计 风险感知的训练目标,将 RiskEval 扩展到多步决策问题,以及构建 策略层,将校准后的置信度转化为生产流水线中的最佳行动。

作者

  • Jiawei Wang
  • Yanfei Zhou
  • Siddartha Devic
  • Deqing Fu

论文信息

  • arXiv ID: 2601.07767v1
  • 分类: cs.LG, cs.CL
  • 发布日期: 2026年1月12日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »