[Paper] LLM 在多轮交互中的置信度估计
Source: arXiv - 2601.02179v1
概述
论文 “Confidence Estimation for LLMs in Multi‑turn Interactions” 解决了大多数开发者在构建基于聊天的 AI 助手时遇到的一个问题:我们如何知道模型对其答案实际上有多确定? 虽然之前的工作已经在单问设置中研究了置信度,但本研究是首次系统地在整个对话过程中探讨置信度——在对话中上下文逐步累积,歧义应当逐渐消失。作者提出了一个新的评估框架,引入了全新的度量指标,并测试了多种置信度估计技巧——结果表明该问题仍远未解决,但为构建更可信的对话代理指明了有前景的方向。
关键贡献
- 首个正式的多轮置信度基准:定义了两个核心 desiderata——每轮校准和单调性(置信度应随获取更多信息而上升)。
- InfoECE 指标:一种长度归一化的期望校准误差,考虑对话长度的变化,实现跨会话的公平比较。
- Hinter‑Guesser 范式:可控的数据生成流水线,创建具有已知“真实”置信度的合成多轮对话,便于精确评估。
- 全面的实证研究:在多轮任务上评估了一系列现有置信度估计方法(如温度缩放、Monte‑Carlo dropout、ensemble logits),揭示系统性的校准失效。
- P(Sufficient) 探针:一种轻量级基于 logits 的分类器,预测模型是否已获得足够的上下文以正确回答,在所有测试方法中实现了最佳的校准/单调性。
方法论
-
问题形式化 – 作者将对话建模为一系列回合 ((x_1, y_1), (x_2, y_2), …)。对每个回合计算置信度分数 (c_t),并要求:
- 校准:预测的置信度应与经验正确率相匹配。
- 单调性:当新回合提供有用信息时,(c_{t+1} \ge c_t)。
-
度量指标 –
- InfoECE:在经典期望校准误差(Expected Calibration Error)的基础上进行扩展,通过在对话长度上归一化,防止长对话主导误差。
- 单调性比例:在对话进行过程中,置信度正确上升(或保持不变)的回合对的比例。
-
数据集构建 – Hinter‑Guesser –
- Hinter:生成一个可能含糊的“提示”(部分上下文)。
- Guesser:提供能够消除歧义的缺失信息。
通过将大量 hinter‑guesser 对拼接,作者创建了合成的多回合问答集合,已知真实答案且模型应何时变得自信是可控的。
-
基线置信度技术 – 温度缩放、标签平滑、MC‑dropout、深度集成以及 logits‑margin 探针。
-
提出的探针 – P(Sufficient) – 在模型的最终层 logits 上训练二分类器,以预测当前上下文是否足以得到正确答案。探针的输出被解释为置信度分数。
所有实验均在流行的大语言模型骨干(如 LLaMA‑7B、GPT‑3.5)上使用 Hugging Face 🤗 Transformers 库运行,使得开发者能够复现整个流程。
结果与发现
| Method | InfoECE ↓ | Monotonicity ↑ |
|---|---|---|
| Temperature scaling | 0.21 | 0.48 |
| MC‑dropout (10 samples) | 0.18 | 0.52 |
| Deep ensemble (5 models) | 0.15 | 0.57 |
| Logit‑margin probe | 0.13 | 0.61 |
| P(Sufficient) (proposed) | 0.09 | 0.71 |
- 校准差距:即使是最强的基线也留下了显著的校准误差(>10 %)。
- 单调性问题:许多方法产生的置信度在对话轮次之间波动剧烈,违背了直观的 “信息越多 → 置信度越高” 规则。
- P(Sufficient) 的优势:通过直接从 logits 学习 “充分性” 信号,该探针在校准度和单调性上都有提升,尽管仍未达到完美可靠。
- 泛化能力:该探针在不同领域(医学问答、代码辅助)之间的迁移表现尚可,但当对话长度超出训练分布时会出现性能下降。
总体而言,研究表明 对话中的置信度估计比单轮问答更具挑战性,且单轮设置下的已有技巧并不能直接迁移到多轮对话场景。
实际意义
- 安全关键机器人(例如自主代理、医疗分诊)可以使用 InfoECE 指标来监控并标记低置信度的回合,触发人工回退或请求澄清。
- 人机交互工作流:开发者可以在 UI 组件中展示 P(Sufficient) 置信度得分,让用户看到模型何时“准备好”执行操作,何时仍需更多上下文。
- 动态提示:系统可以自动提出后续澄清问题,直至置信度探测超过阈值,从而在不硬编码固定回合数的情况下减少幻觉。
- 模型无关工具:由于 P(Sufficient) 基于原始 logits 工作,它可以包装在任何公开 token 概率的闭源大模型(例如 OpenAI 的 API)上,实现快速集成到现有流水线。
- 评估标准:InfoECE 和单调性比率为开发者提供了新的基准,用于比较具置信度感知的对话模型,鼓励在部署前进行更稳健的测试。
限制与未来工作
- Synthetic bias(合成偏差): Hinter‑Guesser 数据集虽然可控,但可能无法捕捉真实对话的全部混乱(例如用户拼写错误、离题的离散)。
- Scalability of the probe(探针的可扩展性): 训练 P(Sufficient) 需要访问中间 logits,而一些商业 API 会隐藏这些信息;未来工作可以探索黑箱近似方法。
- Long‑range dependencies(长程依赖): 对于比训练时更长的对话,置信度会下降;层次化或记忆增强的探针可能缓解此问题。
- Beyond binary sufficiency(超越二元充分性): 将探针扩展为预测 why 置信度低的原因(例如歧义、事实不确定性),可以实现更细致的恢复策略。
该论文为让对话式 LLM 不仅更聪明,而且更具自我意识奠定了坚实基础——这是迈向可信 AI 助手、开发者能够安全发布的关键一步。
作者
- Caiqi Zhang
- Ruihan Yang
- Xiaochen Zhu
- Chengzu Li
- Tiancheng Hu
- Yijiang River Dong
- Deqing Yang
- Nigel Collier
论文信息
- arXiv ID: 2601.02179v1
- 类别: cs.CL
- 发布日期: 2026年1月5日
- PDF: 下载 PDF