一种更好的识别过度自信大语言模型的方法

发布: 1个月前 (2026年3月19日 GMT+8 12:00)

8 分钟阅读

原文: MIT News - AI

Source: MIT News - AI

请提供您希望翻译的正文内容，我将为您把它翻译成简体中文，同时保留原始的格式、Markdown 语法以及技术术语。谢谢！

概览

大型语言模型（LLM）能够生成可信但不准确的回答，因此研究人员开发了不确定性量化方法来检查预测的可靠性。一种流行的方法是对同一提示进行多次提交，以观察模型是否生成相同的答案。

但这种方法衡量的是自信度，即使是最强大的 LLM 也可能自信地给出错误答案。过度自信会误导用户对预测准确性的判断，在医疗、金融等高风险场景中可能导致灾难性后果。

为了解决这一缺陷，MIT 的研究人员提出了一种新方法，用于衡量另一种类型的不确定性，从而更可靠地识别出自信却错误的 LLM 回答。

研究人员的工作

他们的方法将 目标模型的响应 与 一组相似的 LLM 的响应进行比较。
他们发现 跨模型分歧 能比传统方法更准确地捕捉此类不确定性。
通过将其与 LLM 自洽性 的度量相结合，他们创建了 总体不确定性（TU）指标。
在 10 项真实任务（问答、数学推理、摘要、翻译等）上评估了 TU 指标，并始终在识别不可靠预测方面优于其他度量。

“自洽性已被用于许多不同的不确定性量化方法，但如果你的不确定性估计仅依赖于单个模型的输出，它并不一定可信。我们回到最初，了解当前方法的局限性，并以此为出发点设计了一种互补方法，能够在经验上提升结果，”
— Kimia Hamidieh，MIT EECS 研究生，本文技术的第一作者，论文链接。

合著者：

Veronika Thost – MIT‑IBM Watson AI Lab 研究科学家
Walter Gerych – 前 MIT 博士后，现任 Worcester Polytechnic Institute 助理教授
Mikhail Yurochkin – MIT‑IBM Watson AI Lab 资深研究科学家
Marzyeh Ghassemi – EECS 副教授；医学工程科学研究所和信息与决策系统实验室成员

理解过度自信

许多流行的不确定性量化方法包括：

让模型给出置信分数
测试其对相同提示的响应一致性

这些方法估计 aleatoric 不确定性——模型对自身预测的内部置信程度。

然而，大语言模型可能 自信地错误。研究表明，当模型过度自信时，epistemic 不确定性——关于我们是否使用了正确模型的不确定性——可能是更好的真实不确定性指示。

MIT 团队通过 测量一组相似 LLM 之间的分歧 来估计 epistemic 不确定性。

“如果我多次向 ChatGPT 提同一个问题，而它一次又一次给出相同的答案，这并不意味着答案一定正确。如果我换成 Claude 或 Gemini 再问同一个问题，得到不同的答案，这就能让我感受到 epistemic 不确定性，”
— Kimia Hamidieh

Epistemic 不确定性试图捕捉目标模型与任务的 理想模型 之间的偏离程度。由于理想模型不可实现，研究人员通常使用 代理模型，而这些代理模型往往依赖于有缺陷的假设。MIT 团队需要一种更准确的方法来估计 epistemic 不确定性。

集成方法

集成构建 – 衡量目标模型与 一小组规模和架构相似的模型 之间的差异。
语义相似性 – 比较意义而非精确措辞；这能更好地估计认知不确定性。
模型多样性 – 选择由 不同公司 训练的模型，以确保响应多样并避免与目标模型过度相似。

“我们发现满足所有这些属性的最简单方法是使用由不同公司训练的模型。我们尝试了许多更复杂的方法，但这个非常简单的方法最终效果最好。”
— Kimia Hamidieh

结合不确定性

Aleatoric 不确定性 – 标准自一致性度量。
Epistemic 不确定性 – 跨模型分歧度量。

总不确定性（TU） 指标 = aleatoric + epistemic。

“不确定性取决于给定提示的自身不确定性以及我们的模型与最优模型的接近程度。这就是为什么将这两个不确定性指标相加能给出最佳估计。”
— Kimia Hamidieh

TU 的优势

标记出仅凭 aleatoric 不确定性可能遗漏的自信错误输出（幻觉）。
在训练期间强化自信正确的答案，有望提升性能。
通常比仅计算 aleatoric 不确定性需要 更少的查询 → 降低计算成本和能耗。

实验结果

任务类型	TU 相对于单一指标的表现
事实性问答（唯一正确答案）	最佳 – 高度检测不可靠预测
开放式任务（如摘要）	认知成分效果较差，但 TU 仍优于单一指标
数学推理、翻译等	始终优于单独的 aleatoric 或 epistemic

实验还表明，认知不确定性在唯一正确答案的任务上表现突出，而在更开放的任务上可能表现不佳。

未来方向

适应开放式任务 – 精炼认知组件，以更好地处理多个合理答案。
动态集成加权 – 使用可信度分数为每个模型在分歧度量中的贡献加权。
与训练流水线的集成 – 利用 TU 在微调期间有选择地强化正确预测并抑制幻觉。

open-ended queries. They may also build on this work by exploring other forms of aleatoric uncertainty.

This work is funded, in part, by the MIT‑IBM Watson AI Lab.

一种更好的识别过度自信大语言模型的方法

概览

研究人员的工作

理解过度自信

集成方法

结合不确定性

TU 的优势

实验结果

未来方向

相关文章

Claude Code 的 settings.json 加固速查表

模型在存在 Policy Gates 时自我审查

我们如何监控内部编码代理的错位

生成式 AI 改进了能够穿透障碍物的无线视觉系统