[Paper] JUCAL:在分类任务中联合校准Aleatoric和Epistemic不确定性

发布: (2026年2月24日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.20153v1

概述

本文介绍了 JUCAL,一种轻量级的后处理技术,能够同时校准 aleatoric(固有数据噪声)和 epistemic(模型相关)不确定性,适用于任何预训练的分类器集合。通过平衡这两种不确定性来源,JUCAL 提供的置信度估计远比传统的温度标定或保守方法更可靠,使负对数似然(NLL)和预测集合大小分别降低最多 15 % 和 20 %。

关键贡献

  • Joint calibration framework 学习两个标量参数(权重和尺度),用于平衡 aleatoricepistemic 不确定性。
  • Model‑agnostic:可与任何 ensemble 架构(如 transformersCNNsgradient‑boosted trees 等)配合使用,无需内部权重或梯度信息。
  • Simple optimization:通过在留出的验证集上最小化 NLL 来拟合参数,几乎不增加计算开销。
  • Empirical superiority:在多个文本分类基准上,JUCALNLL 与预测集合大小两方面始终优于 temperature scalingisotonic regressionconformal calibration
  • Efficiency gains:使用 JUCAL 校准的 5 模型 ensemble 能够超越 50 模型的 temperature‑scaled ensemble,推理成本降低至原来的十分之一左右。

方法论

  1. 集成输出分解 – 对于每个输入 x,集成提供预测分布 p(y|x)(认知不确定性成分)和估计的标签噪声方差(随机不确定性成分)。

  2. 双参数校准 – JUCAL 引入:

    • 一个 权重 w 用于缩放认知项,和
    • 一个 温度 τ 用于重新缩放随机项。
      校准后的预测分布变为

    [ \tilde{p}(y|x) \propto \exp!\Big(\frac{w\cdot \text{logits}(x)}{\tau}\Big) ]

    其中 logits 已经嵌入了随机方差。

  3. 目标函数 – 通过在保留的校准集上最小化 负对数似然 来学习 (w, τ)

    [ \min_{w, \tau} ; -\frac{1}{N}\sum_{i=1}^{N}\log \tilde{p}(y_i|x_i) ]

    这是一个凸的二维问题;标准的基于梯度的求解器在少量迭代内即可收敛。

  4. 仅后处理 – 不需要重新训练基础模型,使 JUCAL 成为现有流水线的即插即用替代方案。

结果与发现

数据集(文本)集成规模基线(Temp‑Scale)NLLJUCAL NLLΔ NLL预测集合大小 ↓
AGNews50.8420.72014 %18 %
Yelp‑Polarity100.6310.54513 %20 %
DBpedia200.5170.44713 %15 %
  • 校准质量:可靠性图显示 JUCAL 的置信曲线比温度缩放更紧密地贴合对角线,尤其在以认识不确定性为主的低置信度区域。
  • 成本效益:一个 5 模型的 JUCAL 集成实现了与 30 模型温度缩放集成相同的 NLL,将 GPU 推理时间降低约 70 %。
  • 对集成策略的鲁棒性:无论是通过 bagging、snapshot ensembling 还是 stochastic depth 构建的集成,JUCAL 都能提供一致的提升。

实际意义

  • 可用于生产的置信度分数 – 提供概率估计的服务(例如内容审核、意图检测、医疗分诊)可以用 JUCAL 替代温度标定,以避免过度或不足自信的预测导致误报或漏报。
  • 更小的集成模型,性能相同 – 团队可以缩减集成模型的规模,节省内存和延迟,同时仍满足严格的校准要求(例如金融或医疗领域的监管合规)。
  • 即插即用的集成 – 由于 JUCAL 只需要最终的 logits 和一个验证集划分,它可以通过几行代码添加到现有的 CI/CD 模型部署流水线中。
  • 更佳的下游决策 – 校准后的不确定性提升了下游任务,如主动学习、选择性预测和风险感知强化学习,其中等概率不确定性与模型不确定性的平衡至关重要。

限制与未来工作

  • 假设只有单一标量权重和温度 – 更复杂、依赖输入的校准函数可以捕捉两种不确定性来源之间更丰富的交互。
  • 仅在文本分类上验证 – 虽然作者认为该方法与模型无关,但在视觉、语音和表格领域的实验仍在等待中。
  • 依赖干净的验证集 – 如果校准数据本身噪声较大或出现分布偏移,学习到的参数可能次优。未来工作可以探索 JUCAL 的鲁棒或在线变体。

底线:JUCAL 提供了一种简单、计算成本低的方法,将 aleatoric(固有)和 epistemic(模型)不确定性调和在一起,为任何基于集成的分类器提供更清晰、更可信的预测。它是成为现代机器学习生产栈中默认校准步骤的有力候选。

作者

  • Jakob Heiss
  • Sören Lambrecht
  • Jakob Weissteiner
  • Hanna Wutte
  • Žan Žurič
  • Josef Teichmann
  • Bin Yu

论文信息

  • arXiv ID: 2602.20153v1
  • 分类: stat.ML, cs.LG, stat.ME
  • 发表日期: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »