[Paper] 不仅是多少，而是哪里：将 Epistemic Uncertainty 分解为每类贡献

发布: 3天前 (2026年2月25日 GMT+8 02:05)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.21160v1

概述

本文介绍了一种在深度学习分类器中分解认知不确定性的新方法。作者不再用单一标量（互信息，MI）来概括模型的无知，而是提出了每类不确定性向量，它能够告诉你模型对哪些类别感到不确定。这种更细粒度的视角在安全关键的应用中尤为有价值，因为对某些类别的错误（例如“癌症” vs. “良性”）会产生截然不同的代价。

关键贡献

MI 的按类分解：推导出闭式向量
[ C_k(x)=\frac{\sigma_k^{2}}{2\mu_k} ]
用以近似每个类别 (k) 对整体认知不确定性的贡献。
边界感知加权：(1/\mu_k) 因子校正了传统基于方差的度量在稀有或低概率类别上的低估倾向。
偏度诊断：提供一种低成本检查，用于标记在泰勒近似（用于推导 (C_k)）失效的输入。
公理化分析：表明按类得分满足诸如非负性、可加性（(\sum_k C_k \approx \text{MI})）以及对标签置换不变等理想属性。
三方面的实证验证：
1. 选择性预测 在糖尿病视网膜病变 (DR) 上——相较于标准 MI 与方差基线，显著降低风险。
2. 分布外 (OOD) 检测 在临床和自然图像基准上——实现最高 AUROC，并揭示标量 MI 隐藏的非对称分布偏移。
3. 标签噪声鲁棒性——在端到端贝叶斯训练下，按类 MI 对注入的随机噪声不敏感。

方法论

贝叶斯深度学习设置 – 模型通过对其权重的后验进行训练（例如，通过 Monte‑Carlo dropout 或深度集成）。对于给定输入 (x)，每个后验样本产生一个预测概率向量 (\mathbf{p}^{(s)})。
计算类别级别的矩：
- 类别 (k) 的平均概率：(\mu_k = \mathbb{E}[p_k])（在后验样本上取平均）。
- 类别 (k) 的方差：(\sigma_k^2 = \operatorname{Var}[p_k])。
对预测熵进行泰勒展开，围绕均值得到模型参数与预测之间互信息（MI）的近似。二阶项给出每类的贡献：
[ C_k(x) \approx \frac{\sigma_k^2}{2\mu_k}. ]
对所有类别求和即可恢复原始 MI（忽略更高阶项）。
偏度检查 – 计算类别概率的三阶中心矩；若偏度较大，说明二阶近似可能不可靠，需要回退到完整的 MI 计算。
评估流程 – 作者将每类得分嵌入现有的决策框架（选择性预测阈值、OOD 检测器以及噪声敏感性研究），并与使用标量 MI 或简单方差的基线进行比较。

结果与发现

任务	指标	相较于 MI 的改进	重要观察
选择性预测 (DR)	在 90 % 覆盖率下的风险降低	降低 34.7 % 的风险（关键类 (C_k) 与 MI 对比）	针对 “严重 DR” 类别可获得最大收益。
	与方差基线相比	降低 56.2 % 的风险	单纯使用方差会对易分类别过度惩罚。
OOD 检测（临床 + ImageNet‑style）	AUROC（整体）	在所有测试分数中最高（≈ 0.96）	按类求和 (\sum_k C_k) 优于 MI、方差和熵。
	按类视角	显示 OOD 偏移主要由部分类别主导（例如医学图像中的 “恶性”）	可实现类特定警报。
标签噪声鲁棒性	对注入噪声的敏感度（ΔAUROC）	在端到端贝叶斯训练下 (\sum_k C_k) 的下降更小	当后验通过迁移学习近似时，MI 与按类 MI 都会退化，凸显良好后验的重要性。

在所有实验中，后验近似的质量（贝叶斯推断对权重不确定性的捕获程度）与不确定性度量的选择同等重要。

实际影响

风险感知部署：开发者现在可以为每个类别设置特定的置信阈值（例如，在视频监控中对“火灾”设定比“烟雾”更严格的阈值），而不是使用统一的阈值。
可解释的警报：当 OOD 样本被标记时，每类向量会告诉工程师模型对哪些类别感到困惑，从而简化根因分析。
选择性推理流水线：在医学影像或自动驾驶等场景中，你可以仅将高风险预测自动转交给人工审查，既节省带宽又保证安全。
模型调试与数据收集：对稀有类别出现高不确定性时，表明需要为该类别收集更多标注数据或进行针对性增强。
兼容性：该方法适用于任何能够产生多次预测样本的贝叶斯近似（dropout、ensemble、SWAG 等），并可作为后处理步骤直接加入，无需重新训练模型。

限制与未来工作

近似精度：每类分数依赖二阶泰勒展开；预测分布的极端偏斜会导致近似不可靠，需要使用回退的偏斜诊断。
后验依赖：当后验近似较差（例如，朴素迁移学习）时，收益会减小，表明该方法并非所有贝叶斯设置的灵丹妙药。
对超大词表的可扩展性：虽然每个样本的计算成本低，但为数千个类别（例如语言模型）存储和处理每类向量可能会占用大量内存。
作者提出的未来方向包括：将分解扩展到层次标签空间、将每类不确定性整合到主动学习的损失函数中，以及探索更高阶展开以收紧互信息近似。

作者

Mame Diarra Toure
David A. Stephens

论文信息

arXiv ID: 2602.21160v1
分类: stat.ML, cs.LG, stat.AP, stat.ME
出版日期: 2026年2月24日
PDF: Download PDF

[Paper] 不仅是多少，而是哪里：将 Epistemic Uncertainty 分解为每类贡献

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 通过锚定实现模型一致性

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] SOTAlign：通过最优传输的单模态视觉和语言模型的半监督对齐

[Paper] FlashOptim：用于内存高效训练的优化器