[Paper] LLM 在多轮交互中的置信度估计

发布: 2周前 (2026年1月5日 GMT+8 22:58)

8 min read

原文: arXiv

Source: arXiv - 2601.02179v1

概述

论文 “Confidence Estimation for LLMs in Multi‑turn Interactions” 解决了大多数开发者在构建基于聊天的 AI 助手时遇到的一个问题：我们如何知道模型对其答案实际上有多确定？ 虽然之前的工作已经在单问设置中研究了置信度，但本研究是首次系统地在整个对话过程中探讨置信度——在对话中上下文逐步累积，歧义应当逐渐消失。作者提出了一个新的评估框架，引入了全新的度量指标，并测试了多种置信度估计技巧——结果表明该问题仍远未解决，但为构建更可信的对话代理指明了有前景的方向。

关键贡献

首个正式的多轮置信度基准：定义了两个核心 desiderata——每轮校准和单调性（置信度应随获取更多信息而上升）。
InfoECE 指标：一种长度归一化的期望校准误差，考虑对话长度的变化，实现跨会话的公平比较。
Hinter‑Guesser 范式：可控的数据生成流水线，创建具有已知“真实”置信度的合成多轮对话，便于精确评估。
全面的实证研究：在多轮任务上评估了一系列现有置信度估计方法（如温度缩放、Monte‑Carlo dropout、ensemble logits），揭示系统性的校准失效。
P(Sufficient) 探针：一种轻量级基于 logits 的分类器，预测模型是否已获得足够的上下文以正确回答，在所有测试方法中实现了最佳的校准/单调性。

方法论

问题形式化 – 作者将对话建模为一系列回合 ((x_1, y_1), (x_2, y_2), …)。对每个回合计算置信度分数 (c_t)，并要求：
- 校准：预测的置信度应与经验正确率相匹配。
- 单调性：当新回合提供有用信息时，(c_{t+1} \ge c_t)。
度量指标 –
- InfoECE：在经典期望校准误差（Expected Calibration Error）的基础上进行扩展，通过在对话长度上归一化，防止长对话主导误差。
- 单调性比例：在对话进行过程中，置信度正确上升（或保持不变）的回合对的比例。
数据集构建 – Hinter‑Guesser –
- Hinter：生成一个可能含糊的“提示”（部分上下文）。
- Guesser：提供能够消除歧义的缺失信息。
  通过将大量 hinter‑guesser 对拼接，作者创建了合成的多回合问答集合，已知真实答案且模型应何时变得自信是可控的。
基线置信度技术 – 温度缩放、标签平滑、MC‑dropout、深度集成以及 logits‑margin 探针。
提出的探针 – P(Sufficient) – 在模型的最终层 logits 上训练二分类器，以预测当前上下文是否足以得到正确答案。探针的输出被解释为置信度分数。

所有实验均在流行的大语言模型骨干（如 LLaMA‑7B、GPT‑3.5）上使用 Hugging Face 🤗 Transformers 库运行，使得开发者能够复现整个流程。

结果与发现

Method	InfoECE ↓	Monotonicity ↑
Temperature scaling	0.21	0.48
MC‑dropout (10 samples)	0.18	0.52
Deep ensemble (5 models)	0.15	0.57
Logit‑margin probe	0.13	0.61
P(Sufficient) (proposed)	0.09	0.71

校准差距：即使是最强的基线也留下了显著的校准误差（>10 %）。
单调性问题：许多方法产生的置信度在对话轮次之间波动剧烈，违背了直观的 “信息越多 → 置信度越高” 规则。
P(Sufficient) 的优势：通过直接从 logits 学习 “充分性” 信号，该探针在校准度和单调性上都有提升，尽管仍未达到完美可靠。
泛化能力：该探针在不同领域（医学问答、代码辅助）之间的迁移表现尚可，但当对话长度超出训练分布时会出现性能下降。

总体而言，研究表明 对话中的置信度估计比单轮问答更具挑战性，且单轮设置下的已有技巧并不能直接迁移到多轮对话场景。

实际意义

安全关键机器人（例如自主代理、医疗分诊）可以使用 InfoECE 指标来监控并标记低置信度的回合，触发人工回退或请求澄清。
人机交互工作流：开发者可以在 UI 组件中展示 P(Sufficient) 置信度得分，让用户看到模型何时“准备好”执行操作，何时仍需更多上下文。
动态提示：系统可以自动提出后续澄清问题，直至置信度探测超过阈值，从而在不硬编码固定回合数的情况下减少幻觉。
模型无关工具：由于 P(Sufficient) 基于原始 logits 工作，它可以包装在任何公开 token 概率的闭源大模型（例如 OpenAI 的 API）上，实现快速集成到现有流水线。
评估标准：InfoECE 和单调性比率为开发者提供了新的基准，用于比较具置信度感知的对话模型，鼓励在部署前进行更稳健的测试。

限制与未来工作

Synthetic bias（合成偏差）: Hinter‑Guesser 数据集虽然可控，但可能无法捕捉真实对话的全部混乱（例如用户拼写错误、离题的离散）。
Scalability of the probe（探针的可扩展性）: 训练 P(Sufficient) 需要访问中间 logits，而一些商业 API 会隐藏这些信息；未来工作可以探索黑箱近似方法。
Long‑range dependencies（长程依赖）: 对于比训练时更长的对话，置信度会下降；层次化或记忆增强的探针可能缓解此问题。
Beyond binary sufficiency（超越二元充分性）: 将探针扩展为预测 why 置信度低的原因（例如歧义、事实不确定性），可以实现更细致的恢复策略。

该论文为让对话式 LLM 不仅更聪明，而且更具自我意识奠定了坚实基础——这是迈向可信 AI 助手、开发者能够安全发布的关键一步。

作者

Caiqi Zhang
Ruihan Yang
Xiaochen Zhu
Chengzu Li
Tiancheng Hu
Yijiang River Dong
Deqing Yang
Nigel Collier

论文信息

arXiv ID: 2601.02179v1
类别: cs.CL
发布日期: 2026年1月5日
PDF: 下载 PDF

[Paper] LLM 在多轮交互中的置信度估计

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？ 对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析