[Paper] JUCAL:在分类任务中联合校准Aleatoric和Epistemic不确定性
Source: arXiv - 2602.20153v1
概述
本文介绍了 JUCAL,一种轻量级的后处理技术,能够同时校准 aleatoric(固有数据噪声)和 epistemic(模型相关)不确定性,适用于任何预训练的分类器集合。通过平衡这两种不确定性来源,JUCAL 提供的置信度估计远比传统的温度标定或保守方法更可靠,使负对数似然(NLL)和预测集合大小分别降低最多 15 % 和 20 %。
关键贡献
- Joint calibration framework 学习两个标量参数(权重和尺度),用于平衡 aleatoric 与 epistemic 不确定性。
- Model‑agnostic:可与任何 ensemble 架构(如 transformers、CNNs、gradient‑boosted trees 等)配合使用,无需内部权重或梯度信息。
- Simple optimization:通过在留出的验证集上最小化 NLL 来拟合参数,几乎不增加计算开销。
- Empirical superiority:在多个文本分类基准上,JUCAL 在 NLL 与预测集合大小两方面始终优于 temperature scaling、isotonic regression 和 conformal calibration。
- Efficiency gains:使用 JUCAL 校准的 5 模型 ensemble 能够超越 50 模型的 temperature‑scaled ensemble,推理成本降低至原来的十分之一左右。
方法论
-
集成输出分解 – 对于每个输入 x,集成提供预测分布 p(y|x)(认知不确定性成分)和估计的标签噪声方差(随机不确定性成分)。
-
双参数校准 – JUCAL 引入:
- 一个 权重 w 用于缩放认知项,和
- 一个 温度 τ 用于重新缩放随机项。
校准后的预测分布变为
[ \tilde{p}(y|x) \propto \exp!\Big(\frac{w\cdot \text{logits}(x)}{\tau}\Big) ]
其中 logits 已经嵌入了随机方差。
-
目标函数 – 通过在保留的校准集上最小化 负对数似然 来学习 (w, τ):
[ \min_{w, \tau} ; -\frac{1}{N}\sum_{i=1}^{N}\log \tilde{p}(y_i|x_i) ]
这是一个凸的二维问题;标准的基于梯度的求解器在少量迭代内即可收敛。
-
仅后处理 – 不需要重新训练基础模型,使 JUCAL 成为现有流水线的即插即用替代方案。
结果与发现
| 数据集(文本) | 集成规模 | 基线(Temp‑Scale)NLL | JUCAL NLL | Δ NLL | 预测集合大小 ↓ |
|---|---|---|---|---|---|
| AGNews | 5 | 0.842 | 0.720 | 14 % | 18 % |
| Yelp‑Polarity | 10 | 0.631 | 0.545 | 13 % | 20 % |
| DBpedia | 20 | 0.517 | 0.447 | 13 % | 15 % |
- 校准质量:可靠性图显示 JUCAL 的置信曲线比温度缩放更紧密地贴合对角线,尤其在以认识不确定性为主的低置信度区域。
- 成本效益:一个 5 模型的 JUCAL 集成实现了与 30 模型温度缩放集成相同的 NLL,将 GPU 推理时间降低约 70 %。
- 对集成策略的鲁棒性:无论是通过 bagging、snapshot ensembling 还是 stochastic depth 构建的集成,JUCAL 都能提供一致的提升。
实际意义
- 可用于生产的置信度分数 – 提供概率估计的服务(例如内容审核、意图检测、医疗分诊)可以用 JUCAL 替代温度标定,以避免过度或不足自信的预测导致误报或漏报。
- 更小的集成模型,性能相同 – 团队可以缩减集成模型的规模,节省内存和延迟,同时仍满足严格的校准要求(例如金融或医疗领域的监管合规)。
- 即插即用的集成 – 由于 JUCAL 只需要最终的 logits 和一个验证集划分,它可以通过几行代码添加到现有的 CI/CD 模型部署流水线中。
- 更佳的下游决策 – 校准后的不确定性提升了下游任务,如主动学习、选择性预测和风险感知强化学习,其中等概率不确定性与模型不确定性的平衡至关重要。
限制与未来工作
- 假设只有单一标量权重和温度 – 更复杂、依赖输入的校准函数可以捕捉两种不确定性来源之间更丰富的交互。
- 仅在文本分类上验证 – 虽然作者认为该方法与模型无关,但在视觉、语音和表格领域的实验仍在等待中。
- 依赖干净的验证集 – 如果校准数据本身噪声较大或出现分布偏移,学习到的参数可能次优。未来工作可以探索 JUCAL 的鲁棒或在线变体。
底线:JUCAL 提供了一种简单、计算成本低的方法,将 aleatoric(固有)和 epistemic(模型)不确定性调和在一起,为任何基于集成的分类器提供更清晰、更可信的预测。它是成为现代机器学习生产栈中默认校准步骤的有力候选。
作者
- Jakob Heiss
- Sören Lambrecht
- Jakob Weissteiner
- Hanna Wutte
- Žan Žurič
- Josef Teichmann
- Bin Yu
论文信息
- arXiv ID: 2602.20153v1
- 分类: stat.ML, cs.LG, stat.ME
- 发表日期: 2026年2月23日
- PDF: 下载 PDF