[Paper] 超越表面统计:通过内部表征实现对LLMs的稳健共形预测
发布: (2026年4月18日 GMT+8 00:28)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.16217v1
概述
大型语言模型(LLMs)正被用于高风险任务,如问答,但常用的置信度信号(标记概率、熵、自一致性)在模型部署到与训练集不同的数据时往往失效。本文提出了一种新的应用共形预测的方法——这是一种保证用户指定错误率的统计技术——通过利用模型的 internal hidden states 而非表层输出。其结果是为 LLM 的答案提供更可靠的“置信区间”,尤其在领域迁移情况下。
关键贡献
- 层级信息(LI)分数:一种新颖的非一致性度量,量化模型在给定输入条件下跨层的内部熵变化程度。
- 基于 LI 的共形预测流水线:将 LI 分数整合到标准的分割共形框架中,在可交换性假设下保持有限样本的有效性。
- 在问答基准上的实证验证:展示了在封闭式(多项选择)和开放域问答任务上更优的有效性‑效率权衡,当测试数据来自与训练数据不同的领域时,收益最大。
- 对表示层级不确定性的洞察:表明隐藏层动态比表面统计更为稳定,为大型语言模型的鲁棒性研究提供了新的视角。
方法论
- 收集内部激活 – 对于每个输入问题,作者从预训练的大语言模型(LLM)的每一层 Transformer 中提取隐藏表示。
- 计算层级熵 – 在每一层,他们将该表示视为词汇表上的分布(通过对下一个 token 的 logits 进行 softmax),并计算预测熵。
- 推导 LI 分数 – LI 分数是未条件化模型(无输入)的熵与在实际问题条件下的熵之间的差值,并在所有层上进行聚合。直观上,熵的大幅下降意味着模型的内部知识与输入高度对齐,表明更高的置信度。
- 分割共形校准 – 使用留出的校准集将 LI 分数转化为分位阈值,从而定义具有用户指定风险水平(例如 10 % 错误率)的预测集合(例如答案候选集合)。
- 推理 – 在测试时,对新问题计算相同的 LI 分数,将其与校准阈值比较,并返回相应的答案集合。如果该集合包含正确答案,则该实例被视为有效。
该流程不需要修改 LLM 的训练目标;它仅在后处理阶段读取隐藏状态,增加的计算开销很小。
结果与发现
| 设置 | 基线(token‑概率 CP) | 基于 LI 的 CP | 有效性 @ 10 % 风险 | 平均集合大小(效率) |
|---|---|---|---|---|
| 域内问答 | 0.92 | 0.93 | 0.10(目标) | 1.8 vs. 2.1 |
| 跨域迁移(例如医学问答) | 0.78 | 0.86 | 0.10(目标) | 2.4 vs. 3.6 |
| 开放域问答(检索增强) | 0.85 | 0.88 | 0.10(目标) | 2.0 vs. 2.5 |
- 有效性(真实答案落在预测集合中的比例)始终达到名义风险水平,验证了 conformal 保证。
- 效率(预测集合的平均大小)显著提升,尤其在域迁移情况下,这意味着开发者能够在不牺牲可靠性的前提下获得更紧凑的置信区间。
- 消融实验表明,跨所有层聚合熵信息优于仅使用最终层或单一中间层,凸显了全深度视角的价值。
实际意义
- 更安全的 LLM API – 服务提供商可以在每个答案旁边提供“置信集合”,让下游应用决定是接受、请求澄清,还是回退到人工。
- 动态路由 – 在多模型集成中,LI 分数可以作为门控信号,将不确定的查询路由到更专业的模型或检索系统。
- 监控与警报 – 由于 LI 分数来源于内部激活,可持续记录以在生产环境中检测分布漂移,而无需重新训练。
- 合规监管 – 有限样本保证满足新兴的 AI 风险标准(如欧盟 AI 法案),这些标准要求对高影响部署提供可量化的误差界限。
- 低开销 – 该方法仅需一次前向传播收集隐藏状态;无需额外的微调或外部校准数据,只需一个适度的验证集。
局限性与未来工作
- 可交换性假设 – 共形保证仅在校准数据和测试数据可交换时成立;严重的协变量偏移仍可能违反此前提。
- 对超大模型的可扩展性 – 为巨型 LLM(例如 >100 B 参数)提取所有层激活可能会增加延迟和内存使用;可能需要对 LI 进行剪枝或低秩近似。
- 任务通用性 – 本研究聚焦于问答;将基于 LI 的共形预测扩展到生成、摘要或代码合成仍是未解之题。
- 校准集规模 – 较小的校准集可能导致分位数估计噪声大;自适应或在线共形方法或能缓解此问题。
总体而言,本文开辟了一条有前景的路径:利用 LLM 内部丰富的深度信息来生成统计上可靠、实际有用的不确定性估计。对于构建可信 AI 服务的开发者而言,它提供了一种具体工具,弥合原始模型分数与现实可靠性保证之间的鸿沟。
作者
- Yanli Wang
- Peng Kuang
- Xiaoyu Han
- Kaidi Xu
- Haohan Wang
论文信息
- arXiv ID: 2604.16217v1
- 分类: cs.CL, cs.AI
- 发表时间: 2026年4月17日
- PDF: 下载 PDF