[Paper] LLM 在多轮交互中的置信度估计

发布: (2026年1月5日 GMT+8 22:58)
8 min read
原文: arXiv

Source: arXiv - 2601.02179v1

概述

论文 “Confidence Estimation for LLMs in Multi‑turn Interactions” 解决了大多数开发者在构建基于聊天的 AI 助手时遇到的一个问题:我们如何知道模型对其答案实际上有多确定? 虽然之前的工作已经在单问设置中研究了置信度,但本研究是首次系统地在整个对话过程中探讨置信度——在对话中上下文逐步累积,歧义应当逐渐消失。作者提出了一个新的评估框架,引入了全新的度量指标,并测试了多种置信度估计技巧——结果表明该问题仍远未解决,但为构建更可信的对话代理指明了有前景的方向。

关键贡献

  • 首个正式的多轮置信度基准:定义了两个核心 desiderata——每轮校准单调性(置信度应随获取更多信息而上升)。
  • InfoECE 指标:一种长度归一化的期望校准误差,考虑对话长度的变化,实现跨会话的公平比较。
  • Hinter‑Guesser 范式:可控的数据生成流水线,创建具有已知“真实”置信度的合成多轮对话,便于精确评估。
  • 全面的实证研究:在多轮任务上评估了一系列现有置信度估计方法(如温度缩放、Monte‑Carlo dropout、ensemble logits),揭示系统性的校准失效。
  • P(Sufficient) 探针:一种轻量级基于 logits 的分类器,预测模型是否已获得足够的上下文以正确回答,在所有测试方法中实现了最佳的校准/单调性。

方法论

  1. 问题形式化 – 作者将对话建模为一系列回合 ((x_1, y_1), (x_2, y_2), …)。对每个回合计算置信度分数 (c_t),并要求:

    • 校准:预测的置信度应与经验正确率相匹配。
    • 单调性:当新回合提供有用信息时,(c_{t+1} \ge c_t)。
  2. 度量指标

    • InfoECE:在经典期望校准误差(Expected Calibration Error)的基础上进行扩展,通过在对话长度上归一化,防止长对话主导误差。
    • 单调性比例:在对话进行过程中,置信度正确上升(或保持不变)的回合对的比例。
  3. 数据集构建 – Hinter‑Guesser

    • Hinter:生成一个可能含糊的“提示”(部分上下文)。
    • Guesser:提供能够消除歧义的缺失信息。
      通过将大量 hinter‑guesser 对拼接,作者创建了合成的多回合问答集合,已知真实答案且模型应何时变得自信是可控的。
  4. 基线置信度技术 – 温度缩放、标签平滑、MC‑dropout、深度集成以及 logits‑margin 探针。

  5. 提出的探针 – P(Sufficient) – 在模型的最终层 logits 上训练二分类器,以预测当前上下文是否足以得到正确答案。探针的输出被解释为置信度分数。

所有实验均在流行的大语言模型骨干(如 LLaMA‑7B、GPT‑3.5)上使用 Hugging Face 🤗 Transformers 库运行,使得开发者能够复现整个流程。

结果与发现

MethodInfoECE ↓Monotonicity ↑
Temperature scaling0.210.48
MC‑dropout (10 samples)0.180.52
Deep ensemble (5 models)0.150.57
Logit‑margin probe0.130.61
P(Sufficient) (proposed)0.090.71
  • 校准差距:即使是最强的基线也留下了显著的校准误差(>10 %)。
  • 单调性问题:许多方法产生的置信度在对话轮次之间波动剧烈,违背了直观的 “信息越多 → 置信度越高” 规则。
  • P(Sufficient) 的优势:通过直接从 logits 学习 “充分性” 信号,该探针在校准度和单调性上都有提升,尽管仍未达到完美可靠。
  • 泛化能力:该探针在不同领域(医学问答、代码辅助)之间的迁移表现尚可,但当对话长度超出训练分布时会出现性能下降。

总体而言,研究表明 对话中的置信度估计比单轮问答更具挑战性,且单轮设置下的已有技巧并不能直接迁移到多轮对话场景。

实际意义

  • 安全关键机器人(例如自主代理、医疗分诊)可以使用 InfoECE 指标来监控并标记低置信度的回合,触发人工回退或请求澄清。
  • 人机交互工作流:开发者可以在 UI 组件中展示 P(Sufficient) 置信度得分,让用户看到模型何时“准备好”执行操作,何时仍需更多上下文。
  • 动态提示:系统可以自动提出后续澄清问题,直至置信度探测超过阈值,从而在不硬编码固定回合数的情况下减少幻觉。
  • 模型无关工具:由于 P(Sufficient) 基于原始 logits 工作,它可以包装在任何公开 token 概率的闭源大模型(例如 OpenAI 的 API)上,实现快速集成到现有流水线。
  • 评估标准:InfoECE 和单调性比率为开发者提供了新的基准,用于比较具置信度感知的对话模型,鼓励在部署前进行更稳健的测试。

限制与未来工作

  • Synthetic bias(合成偏差): Hinter‑Guesser 数据集虽然可控,但可能无法捕捉真实对话的全部混乱(例如用户拼写错误、离题的离散)。
  • Scalability of the probe(探针的可扩展性): 训练 P(Sufficient) 需要访问中间 logits,而一些商业 API 会隐藏这些信息;未来工作可以探索黑箱近似方法。
  • Long‑range dependencies(长程依赖): 对于比训练时更长的对话,置信度会下降;层次化或记忆增强的探针可能缓解此问题。
  • Beyond binary sufficiency(超越二元充分性): 将探针扩展为预测 why 置信度低的原因(例如歧义、事实不确定性),可以实现更细致的恢复策略。

该论文为让对话式 LLM 不仅更聪明,而且更具自我意识奠定了坚实基础——这是迈向可信 AI 助手、开发者能够安全发布的关键一步。

作者

  • Caiqi Zhang
  • Ruihan Yang
  • Xiaochen Zhu
  • Chengzu Li
  • Tiancheng Hu
  • Yijiang River Dong
  • Deqing Yang
  • Nigel Collier

论文信息

  • arXiv ID: 2601.02179v1
  • 类别: cs.CL
  • 发布日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »