[Paper] 首个 Token 知道：单次解码置信度用于幻觉检测

发布: 4天前 (2026年5月7日 GMT+8 01:34)

6 分钟阅读

原文: arXiv

Source: arXiv - 2605.05166v1

概述

检测幻觉——即语言模型捏造事实——通常依赖于生成多个答案候选并检查它们的一致程度。Mina Gabriel 的论文表明，仅使用单次贪婪解码的第一个承载内容的 token就能获得可比（甚至更好）的置信信号，从而显著降低推理成本，同时仍能标记出不可靠的答案。

First‑token confidence metric (ϕ₁ₙₜ)： 定义为第一个有意义 token 的前 K logits 的归一化熵，仅需一次前向传播。
实证验证： 在三个 7‑8 B 指令微调模型和两个简答 QA 基准上，ϕ₁ₙₜ 达到平均 AUROC 为 0.820，优于语义自一致性 (0.793) 和表面形式自一致性 (0.791)。
相关性分析： 显示 ϕ₁ₙₜ 与多样本语义一致性之间存在中等到强的相关性，表明首 token 分布已捕获大部分不确定性。
基线建议： 提议在使用昂贵的基于采样的不确定性估计器之前，报告 ϕ₁ₙₜ 作为低成本基线。

单一贪婪解码: 对每个问题，模型使用贪婪解码（不采样）生成答案。
识别第一个内容标记: 跳过任何前导标点或停用词；选择第一个具有语义权重的标记。
计算置信度:
- 提取该位置的 top‑K 候选标记的 logits。
- 将其归一化为概率分布。
- 计算熵；熵越低（即分布越尖锐）置信度越高。
- 将熵归一化得到 ϕ₁ₙₜ ∈ [0,1]。
评估: 将 ϕ₁ₙₜ 与真实的幻觉标签进行比较，使用 AUROC。基线包括：
- 表面形式自一致性: 通过多个采样答案的完全字符串重叠来衡量一致性。
- 语义自一致性: 使用自然语言推理模型对答案进行聚类后衡量一致性。

快速幻觉筛查： 在生产 API 返回答案之前，部署 ϕ₁ₙₜ 作为轻量级的 “confidence check”，可节省计算资源和延迟。
资源受限环境： 边缘设备或低预算推理服务器仍然可以获得不确定性估计，而无需进行采样或使用辅助 NLI 模型的开销。
流水线简化： 团队可以用单次推理的 confidence score 替代多次采样的一致性模块，从而降低工程复杂度和维护成本。
混合系统： 对于高风险查询（如医学或法律），仅在首 token confidence 低于阈值时，结合 ϕ₁ₙₜ 与后备的基于采样的检查，实现速度与安全性的良好平衡。

Source: …

范围仅限于简短答案的事实问答： 本研究未评估更长的生成任务（例如摘要、代码生成），在这些任务中第一个 token 可能不太具信息量。
模型规模范围： 实验聚焦于 7‑8 B 的指令微调模型；尚不清楚该指标在更大规模的语言模型或更小的蒸馏模型上如何表现。
分词影响： 不同的分词器可能会改变“第一个内容 token”出现的位置，从而可能影响置信度计算。
未来方向：
- 将 ϕ₁ₙₜ 扩展到多轮对话和开放式生成。
- 研究自适应 K 选择或熵平滑，以提升在不同分词器间的鲁棒性。
- 探索将其与校准技术结合，使 ϕ₁ₙₜ 成为良好校准的概率估计。

结论： 如果你需要快速、低成本地检查模型的答案是否可能出现幻觉，可以从其第一个有意义的 token 的熵入手。这通常已经足够，并且可以省去对成千上万备选答案进行采样的成本。