[Paper] 不仅是多少,而是哪里:将 Epistemic Uncertainty 分解为每类贡献
发布: (2026年2月25日 GMT+8 02:05)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.21160v1
概述
本文介绍了一种在深度学习分类器中分解认知不确定性的新方法。作者不再用单一标量(互信息,MI)来概括模型的无知,而是提出了每类不确定性向量,它能够告诉你模型对哪些类别感到不确定。这种更细粒度的视角在安全关键的应用中尤为有价值,因为对某些类别的错误(例如“癌症” vs. “良性”)会产生截然不同的代价。
关键贡献
- MI 的按类分解:推导出闭式向量
[ C_k(x)=\frac{\sigma_k^{2}}{2\mu_k} ]
用以近似每个类别 (k) 对整体认知不确定性的贡献。 - 边界感知加权:(1/\mu_k) 因子校正了传统基于方差的度量在稀有或低概率类别上的低估倾向。
- 偏度诊断:提供一种低成本检查,用于标记在泰勒近似(用于推导 (C_k))失效的输入。
- 公理化分析:表明按类得分满足诸如非负性、可加性((\sum_k C_k \approx \text{MI}))以及对标签置换不变等理想属性。
- 三方面的实证验证:
- 选择性预测 在糖尿病视网膜病变 (DR) 上——相较于标准 MI 与方差基线,显著降低风险。
- 分布外 (OOD) 检测 在临床和自然图像基准上——实现最高 AUROC,并揭示标量 MI 隐藏的非对称分布偏移。
- 标签噪声鲁棒性——在端到端贝叶斯训练下,按类 MI 对注入的随机噪声不敏感。
方法论
- 贝叶斯深度学习设置 – 模型通过对其权重的后验进行训练(例如,通过 Monte‑Carlo dropout 或深度集成)。对于给定输入 (x),每个后验样本产生一个预测概率向量 (\mathbf{p}^{(s)})。
- 计算类别级别的矩:
- 类别 (k) 的平均概率:(\mu_k = \mathbb{E}[p_k])(在后验样本上取平均)。
- 类别 (k) 的方差:(\sigma_k^2 = \operatorname{Var}[p_k])。
- 对预测熵进行泰勒展开,围绕均值得到模型参数与预测之间互信息(MI)的近似。二阶项给出每类的贡献:
[ C_k(x) \approx \frac{\sigma_k^2}{2\mu_k}. ]
对所有类别求和即可恢复原始 MI(忽略更高阶项)。 - 偏度检查 – 计算类别概率的三阶中心矩;若偏度较大,说明二阶近似可能不可靠,需要回退到完整的 MI 计算。
- 评估流程 – 作者将每类得分嵌入现有的决策框架(选择性预测阈值、OOD 检测器以及噪声敏感性研究),并与使用标量 MI 或简单方差的基线进行比较。
结果与发现
| 任务 | 指标 | 相较于 MI 的改进 | 重要观察 |
|---|---|---|---|
| 选择性预测 (DR) | 在 90 % 覆盖率下的风险降低 | 降低 34.7 % 的风险(关键类 (C_k) 与 MI 对比) | 针对 “严重 DR” 类别可获得最大收益。 |
| 与方差基线相比 | 降低 56.2 % 的风险 | 单纯使用方差会对易分类别过度惩罚。 | |
| OOD 检测(临床 + ImageNet‑style) | AUROC(整体) | 在所有测试分数中最高(≈ 0.96) | 按类求和 (\sum_k C_k) 优于 MI、方差和熵。 |
| 按类视角 | 显示 OOD 偏移主要由部分类别主导(例如医学图像中的 “恶性”) | 可实现类特定警报。 | |
| 标签噪声鲁棒性 | 对注入噪声的敏感度(ΔAUROC) | 在端到端贝叶斯训练下 (\sum_k C_k) 的下降 更小 | 当后验通过迁移学习近似时,MI 与按类 MI 都会退化,凸显良好后验的重要性。 |
在所有实验中,后验近似的质量(贝叶斯推断对权重不确定性的捕获程度)与不确定性度量的选择同等重要。
实际影响
- 风险感知部署:开发者现在可以为每个类别设置特定的置信阈值(例如,在视频监控中对“火灾”设定比“烟雾”更严格的阈值),而不是使用统一的阈值。
- 可解释的警报:当 OOD 样本被标记时,每类向量会告诉工程师模型对 哪些 类别感到困惑,从而简化根因分析。
- 选择性推理流水线:在医学影像或自动驾驶等场景中,你可以仅将高风险预测自动转交给人工审查,既节省带宽又保证安全。
- 模型调试与数据收集:对稀有类别出现高不确定性时,表明需要为该类别收集更多标注数据或进行针对性增强。
- 兼容性:该方法适用于任何能够产生多次预测样本的贝叶斯近似(dropout、ensemble、SWAG 等),并可作为后处理步骤直接加入,无需重新训练模型。
限制与未来工作
- 近似精度:每类分数依赖二阶泰勒展开;预测分布的极端偏斜会导致近似不可靠,需要使用回退的偏斜诊断。
- 后验依赖:当后验近似较差(例如,朴素迁移学习)时,收益会减小,表明该方法并非所有贝叶斯设置的灵丹妙药。
- 对超大词表的可扩展性:虽然每个样本的计算成本低,但为数千个类别(例如语言模型)存储和处理每类向量可能会占用大量内存。
- 作者提出的未来方向包括:将分解扩展到层次标签空间、将每类不确定性整合到主动学习的损失函数中,以及探索更高阶展开以收紧互信息近似。
作者
- Mame Diarra Toure
- David A. Stephens
论文信息
- arXiv ID: 2602.21160v1
- 分类: stat.ML, cs.LG, stat.AP, stat.ME
- 出版日期: 2026年2月24日
- PDF: Download PDF