[Paper] JUCAL：在分类任务中联合校准Aleatoric和Epistemic不确定性

发布: 3天前 (2026年2月24日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.20153v1

概述

本文介绍了 JUCAL，一种轻量级的后处理技术，能够同时校准 aleatoric（固有数据噪声）和 epistemic（模型相关）不确定性，适用于任何预训练的分类器集合。通过平衡这两种不确定性来源，JUCAL 提供的置信度估计远比传统的温度标定或保守方法更可靠，使负对数似然（NLL）和预测集合大小分别降低最多 15 % 和 20 %。

关键贡献

Joint calibration framework 学习两个标量参数（权重和尺度），用于平衡 aleatoric 与 epistemic 不确定性。
Model‑agnostic：可与任何 ensemble 架构（如 transformers、CNNs、gradient‑boosted trees 等）配合使用，无需内部权重或梯度信息。
Simple optimization：通过在留出的验证集上最小化 NLL 来拟合参数，几乎不增加计算开销。
Empirical superiority：在多个文本分类基准上，JUCAL 在 NLL 与预测集合大小两方面始终优于 temperature scaling、isotonic regression 和 conformal calibration。
Efficiency gains：使用 JUCAL 校准的 5 模型 ensemble 能够超越 50 模型的 temperature‑scaled ensemble，推理成本降低至原来的十分之一左右。

方法论

集成输出分解 – 对于每个输入 x，集成提供预测分布 p(y|x)（认知不确定性成分）和估计的标签噪声方差（随机不确定性成分）。
双参数校准 – JUCAL 引入：
- 一个权重 w 用于缩放认知项，和
- 一个温度 τ 用于重新缩放随机项。
  校准后的预测分布变为
[ \tilde{p}(y|x) \propto \exp!\Big(\frac{w\cdot \text{logits}(x)}{\tau}\Big) ]

其中 logits 已经嵌入了随机方差。
目标函数 – 通过在保留的校准集上最小化 负对数似然 来学习 (w, τ)：

[ \min_{w, \tau} ; -\frac{1}{N}\sum_{i=1}^{N}\log \tilde{p}(y_i|x_i) ]

这是一个凸的二维问题；标准的基于梯度的求解器在少量迭代内即可收敛。
仅后处理 – 不需要重新训练基础模型，使 JUCAL 成为现有流水线的即插即用替代方案。

结果与发现

数据集（文本）	集成规模	基线（Temp‑Scale）NLL	JUCAL NLL	Δ NLL	预测集合大小 ↓
AGNews	5	0.842	0.720	14 %	18 %
Yelp‑Polarity	10	0.631	0.545	13 %	20 %
DBpedia	20	0.517	0.447	13 %	15 %

校准质量：可靠性图显示 JUCAL 的置信曲线比温度缩放更紧密地贴合对角线，尤其在以认识不确定性为主的低置信度区域。
成本效益：一个 5 模型的 JUCAL 集成实现了与 30 模型温度缩放集成相同的 NLL，将 GPU 推理时间降低约 70 %。
对集成策略的鲁棒性：无论是通过 bagging、snapshot ensembling 还是 stochastic depth 构建的集成，JUCAL 都能提供一致的提升。

实际意义

可用于生产的置信度分数 – 提供概率估计的服务（例如内容审核、意图检测、医疗分诊）可以用 JUCAL 替代温度标定，以避免过度或不足自信的预测导致误报或漏报。
更小的集成模型，性能相同 – 团队可以缩减集成模型的规模，节省内存和延迟，同时仍满足严格的校准要求（例如金融或医疗领域的监管合规）。
即插即用的集成 – 由于 JUCAL 只需要最终的 logits 和一个验证集划分，它可以通过几行代码添加到现有的 CI/CD 模型部署流水线中。
更佳的下游决策 – 校准后的不确定性提升了下游任务，如主动学习、选择性预测和风险感知强化学习，其中等概率不确定性与模型不确定性的平衡至关重要。

限制与未来工作

假设只有单一标量权重和温度 – 更复杂、依赖输入的校准函数可以捕捉两种不确定性来源之间更丰富的交互。
仅在文本分类上验证 – 虽然作者认为该方法与模型无关，但在视觉、语音和表格领域的实验仍在等待中。
依赖干净的验证集 – 如果校准数据本身噪声较大或出现分布偏移，学习到的参数可能次优。未来工作可以探索 JUCAL 的鲁棒或在线变体。

底线：JUCAL 提供了一种简单、计算成本低的方法，将 aleatoric（固有）和 epistemic（模型）不确定性调和在一起，为任何基于集成的分类器提供更清晰、更可信的预测。它是成为现代机器学习生产栈中默认校准步骤的有力候选。

作者

Jakob Heiss
Sören Lambrecht
Jakob Weissteiner
Hanna Wutte
Žan Žurič
Josef Teichmann
Bin Yu

论文信息

arXiv ID: 2602.20153v1
分类: stat.ML, cs.LG, stat.ME
发表日期: 2026年2月23日
PDF: 下载 PDF

[Paper] JUCAL：在分类任务中联合校准Aleatoric和Epistemic不确定性

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

[Paper] 代理模型用于岩石-流体相互作用：网格尺寸不变方法