[Paper] LLM 决策是否忠实于口头自信?
发布: (2026年1月13日 GMT+8 01:49)
8 min read
原文: arXiv
Source: arXiv - 2601.07767v1
概述
大型语言模型(LLMs)在表达对答案的确信程度方面越来越好,但它们的口头置信是否真的会指导其行为仍是一个未解之谜。论文 “Are LLM Decisions Faithful to Verbal Confidence?” 引入了一个新的评估框架 RiskEval,用于探查当错误成本变化时,LLM 是否会改变其“放弃‑或‑回答”策略。研究结果揭示了一个显著的不匹配:即使在最优策略应为“我不知道”的情况下,最先进的模型仍继续作答,暴露出置信报告与风险感知决策之间的差距。
关键贡献
- RiskEval 框架:一个系统化基准,将置信度评分答案与可配置的错误惩罚相耦合,实现对成本感知的弃答行为的测量。
- 对主流大语言模型的实证审计(如 GPT‑4、Claude、Llama‑2、Gemini),显示它们不具成本敏感性:口头置信度分数并未转化为策略性弃答。
- 效用崩塌示例:在高惩罚 regime 下,数学上最优的策略是几乎总是弃答,但模型仍继续回答,导致期望效用急剧下降。
- 校准与主动性的洞察:工作区分了“校准置信度分数”(模型能够估计自身错误概率)和“策略主动性”(基于该估计采取行动的能力)。
- 开源实现:作者发布了 RiskEval 代码及一套提示,使社区能够轻松复现和扩展分析。
方法论
- 任务设计 – 作者挑选一组知识密集型的问答任务(例如,事实问答、常识推理)。每个问题呈现给 LLM,并要求输出答案以及 口头置信度(例如 “我有 80 % 的把握”)。
- 惩罚方案 – 对每个问题,从预设的分布中抽取一个 惩罚(低、 中、 高)。正确答案获得固定奖励(例如 +1),错误答案则承担抽取的惩罚(例如 –5、 –20、 –100)。
- 决策规则 – 模型可以 作答(使用其生成的答案)或 弃答(输出 “I don’t know”)。若弃答,则获得中性回报(0)。
- RiskEval 指标 – 框架计算每个模型在不同惩罚 regime 下的 期望效用,并将观察到的弃答率与基于模型自身置信度得出的 最优 策略进行比较(即,当置信度 < 1 / (1+惩罚) 时弃答)。
- 模型套件 – 实验在多个闭源和开源 LLM 上进行,温度设为 0(确定性)以及更高的采样温度以测试随机行为。
整个流水线全部脚本化,开发者可以接入任意 LLM API,即时查看其 “风险感知” 程度。
Source: …
结果与发现
| Model | 平均口头置信度校准(Brier 分数) | 高惩罚下的弃答率 | 高惩罚下的期望效用 |
|---|---|---|---|
| GPT‑4 | 0.12(校准良好) | 2 % | –0.78(效用崩溃) |
| Claude 2 | 0.15 | 1 % | –0.71 |
| Llama‑2‑70B | 0.21(校准适中) | 0 % | –0.85 |
| Gemini Pro | 0.13 | 3 % | –0.73 |
关键要点
- 置信度已校准:大多数模型能够准确估计正确的概率(Brier 分数低)。
- 弃答很少:即使惩罚使得弃答成为最优选择,模型仍在 97 % 以上的情况下给出答案。
- 效用崩溃:在极端惩罚下,期望效用变为负值,这意味着模型的行为在真实的风险敏感系统中可能有害。
- 没有战略性适应:改变惩罚力度并未显著改变模型说“我不知道”的意愿。
实际影响
- AI安全与合规 – 必须保证有界风险的行业(例如金融、医疗、自动驾驶系统)不能仅依赖 LLM 生成的置信度分数;在风险高时需要外部决策层来强制弃答。
- 提示工程 – 像 “If you’re not sure, say ‘I don’t know’” 这样的简单提示不足。开发者可能需要嵌入 硬约束(例如,将置信度与成本感知阈值比较的后处理过滤器)。
- 面向风险感知代理的工具 – 开源的 RiskEval 可以集成到 CI 流水线中,在部署前自动审计新模型发布的成本敏感性。
- 面向用户的应用 – 显示置信度百分比的聊天机器人还应提供 “skip/abstain” 选项,并由了解错误下游成本的策略来控制(例如法律咨询、代码生成)。
- 模型微调 – 这一差距提示了一种新的微调目标:风险感知决策,即在高惩罚情境下,根据模型自身置信度对回答进行惩罚的损失函数。
限制与未来工作
- 任务范围 – 基准聚焦于事实问答;其他领域(代码合成、多模态推理)可能表现出不同的成本敏感性模式。
- 惩罚建模 – 惩罚被模拟为标量值;现实世界的成本可能是多维的(法律责任、用户信任),并可能需要更丰富的表示。
- 静态提示 – 本研究未探索动态提示策略(例如,显式考虑风险的链式思考)。
- 模型规模与行为 – 虽然测试了多种规模,但参数数量与策略性回避之间的关系仍未充分研究。
未来的研究方向包括:设计 风险感知的训练目标,将 RiskEval 扩展到多步决策问题,以及构建 策略层,将校准后的置信度转化为生产流水线中的最佳行动。
作者
- Jiawei Wang
- Yanfei Zhou
- Siddartha Devic
- Deqing Fu
论文信息
- arXiv ID: 2601.07767v1
- 分类: cs.LG, cs.CL
- 发布日期: 2026年1月12日
- PDF: Download PDF