[Paper] 可校准的消歧损失用于多实例部分标签学习
Source: arXiv - 2512.17788v1
Overview
Multi‑instance partial‑label learning (MIPL) tackles a double‑layer of weak supervision: each training bag contains multiple instances and each bag is annotated with a set of candidate labels rather than a single ground‑truth label. Existing MIPL methods achieve decent accuracy but often produce poorly calibrated probability estimates, which limits their usefulness in downstream systems that rely on reliable confidence scores (e.g., risk‑aware decision making, active learning). This paper introduces a Calibratable Disambiguation Loss (CDL) that can be dropped into any MIPL or PLL pipeline to boost both classification performance and the quality of the predicted probabilities. (此段落已翻译为简体中文)
概述
多实例部分标签学习(MIPL)解决了双层弱监督的问题:每个训练包包含多个实例 且 每个包用一个 候选标签集合 而不是单一的真实标签进行标注。现有的 MIPL 方法虽然能够取得相当的准确率,但往往产生校准不佳的概率估计,这限制了它们在依赖可靠置信分数的下游系统中的实用性(例如,风险感知的决策、主动学习)。本文提出了一种 可校准消歧损失 (Calibratable Disambiguation Loss, CDL),可以直接嵌入任何 MIPL 或 PLL 流程中,以提升分类性能 以及 预测概率的质量。
关键贡献
- 即插即用的损失函数 – CDL 可作为常规消歧损失的直接替代,无需对现有模型进行架构修改。
- 两种校准变体 –
- CDL‑C 仅利用 候选 标签集合的概率。
- CDL‑CC 同时利用 候选 与 非候选 标签集合的概率,实现更紧密的校准。
- 理论保证 – 作者证明了期望风险的下界,并展示 CDL 充当正则化器,惩罚过度自信且被错误消歧的预测。
- 大量实证验证 – 在标准 MIL/PLL 基准以及真实世界图像标注数据集上的实验表明,在 准确率(提升最高达 +4.2%)和 校准指标(ECE 降低最高 45%)方面均有一致提升。
- 广泛兼容性 – CDL 可集成到流行的 MIPL 框架(如 MI‑PLL、伪标签 MIL)甚至纯 PLL 流程中,成为弱监督学习的多功能工具。
方法论
- 问题设定 – 每个训练样本是一个 bag (B = {x_1,\dots,x_m}),并且有一个候选标签集合 (Y_c \subseteq \mathcal{Y})。真实标签 (y^*) 属于 (Y_c),但未知。
- 标准消歧损失 – 先前的工作将所有候选标签视为同等可能,并在 max 实例‑标签得分上优化 cross‑entropy,这往往导致模型对错误标签过于自信。
- 可校准消歧损失 (CDL) –
- CDL‑C:使用模型的原始 logits 对候选集合计算软概率分布,然后应用 temperature‑scaled cross‑entropy,使预测分布与该软目标匹配。
- CDL‑CC:在 CDL‑C 的基础上,还为非候选标签分配一小部分均匀概率质量,从而对模型进行正则化,使其对从未出现过的标签保持不确定。
- 训练循环 – 用 CDL 替换原始损失项(或与标准分类损失结合)。由于 CDL 可微且仅使用模型自身的输出,它可以无缝集成到任何 optimizer(SGD、Adam 等)中。
- 校准评估 – 作者采用 Expected Calibration Error (ECE) 和 Maximum Calibration Error (MCE) 来量化预测概率与经验准确率的一致程度。
结果与发现
| 数据集 | 基线准确率 | CDL‑C 准确率 | CDL‑CC 准确率 | 基线 ECE | CDL‑C ECE | CDL‑CC ECE |
|---|---|---|---|---|---|---|
| MIL‑MNIST(合成) | 78.1% | 80.9%(+2.8) | 82.3%(+4.2) | 0.127 | 0.084 | 0.067 |
| 真实世界图像标签(Flickr) | 71.4% | 73.6%(+2.2) | 74.8%(+3.4) | 0.142 | 0.099 | 0.081 |
| 基准 PLL(UCI) | 85.6% | 86.9%(+1.3) | 87.4%(+1.8) | 0.091 | 0.058 | 0.052 |
- 准确率:两种 CDL 变体始终优于原始消歧损失;CDL‑CC 通常表现最佳。
- 校准:期望校准误差(ECE)下降 30‑45%,表明模型的置信分数更可靠。
- 消融实验:去除非候选概率项(即仅使用 CDL‑C)会削弱校准效果,验证了第二项的正则化作用。
- 兼容性测试:将 CDL 嵌入最先进的 PLL 方法(PRODEN)后,同样获得提升,且无需重新调节超参数。
实际意义
- 具备风险感知的 AI 服务 – 需要决定是否依据弱监督预测采取行动的系统(例如医学影像分流、内容审核)现在可以依赖校准后的分数来设定合理的置信阈值。
- 主动学习与数据获取 – 更好的校准不确定性能够实现更高效的查询策略:你可以优先选择模型既不确定 又 校准不佳的样本袋,从而降低标注成本。
- 模型集成与下游流水线 – 由于 CDL 产生的概率表现良好,集成模型或下游贝叶斯组件(例如概率图模型)可以直接使用这些概率,而无需额外的温度缩放。
- 零成本升级 – 现有的 MIPL/PLL 代码库只需替换一次损失函数调用即可采用 CDL,这对处理噪声标签集合的生产团队而言,是一种低投入的改进方案。
- 更广泛的弱监督 – 校准原理(为“不可出现”标签分配少量质量)可以迁移到其他弱监督场景,如噪声标签学习、多标签学习,甚至半监督分类。
限制与未来工作
- 对大规模标签空间的可扩展性 – 第二种变体(CDL‑CC)需要遍历完整的标签集合以分配非候选质量,这在成千上万的类别时可能成本高昂。需要近似策略。
- 对候选集合质量的依赖 – 如果候选标签集合噪声很大(例如缺少真实标签),CDL 的校准优势会减弱;处理 部分 候选集合是一个待探索的方向。
- 理论紧致性 – 虽然已经证明了下界,但该下界与经验风险之间的差距尚未完全刻画;更紧的分析可以指导超参数选择(例如温度)。
- 向深度 MIL 架构的扩展 – 实验使用的是相对浅层的网络;将 CDL 与基于 Transformer 的 MIL 编码器或图神经网络结合仍有待探索。
总体而言,可校准消歧损失为弱监督学习流水线在准确性和可靠性方面提供了实用且理论支撑的提升,使其成为在不完美监督下构建 AI 系统的开发者工具箱中的有价值补充。
作者
- Wei Tang
- Yin-Fang Yang
- Weijia Zhang
- Min-Ling Zhang
论文信息
- arXiv ID: 2512.17788v1
- 分类: cs.LG
- 出版日期: 2025年12月19日
- PDF: 下载 PDF