[Paper] 预训练以获益:在没有干净标签的情况下进行鲁棒学习
发布: (2025年11月26日 GMT+8 04:48)
7 min read
原文: arXiv
Source: arXiv - 2511.20844v1
概览
在包含错误标记样本的数据集上训练深度神经网络是一个众所周知的痛点——模型往往会记忆噪声,从而削弱其在真实世界中的表现。论文 Pre‑train to Gain: Robust Learning Without Clean Labels 表明,一个简单的两步方案——自监督预训练随后进行普通的监督微调——即使 没有任何干净子集,也能显著提升鲁棒性。
主要贡献
- 标签无关的预训练:展示了自监督学习(SSL)方法(SimCLR、Barlow Twins)可以在没有任何标签的情况下学习强大的特征提取器。
- 抗噪声微调:证明在 SSL 预训练的骨干网络上进行标准监督训练,能够在噪声数据集上获得远高于从头训练的准确率。
- 全面评估:在 CIFAR‑10 与 CIFAR‑100 上使用合成噪声(均匀、非对称)和真实噪声(WebVision‑type)进行实验,验证了该方法在不同噪声率下的一致性。
- 改进的标签错误检测:SSL 预训练模型为下游错误检测工具提供了更好的表示,提升了 F1 与平衡准确率。
- 与 ImageNet 预训练竞争:在低噪声水平下方法与 ImageNet 预训练基线持平,而在噪声严重时 显著超越 其性能。
方法论
-
自监督预训练
- 选择一种 SSL 算法(SimCLR 或 Barlow Twins)。
- 使用仅包含数据增强和对比/冗余降低损失的方式,在未标记的训练图像上训练卷积骨干网络(例如 ResNet‑18)。
- 不需要人工提供的标签;模型学习将同一图像的不同视图映射到相似的嵌入空间。
-
在噪声标签上进行监督微调
- 冻结或轻微微调骨干网络,同时在 噪声 标记的数据集上训练线性分类器(或小型头部)。
- 使用常规的交叉熵损失;网络此时受益于步骤 1 中学到的鲁棒特征,从而降低对错误标签的过拟合倾向。
-
评估与错误检测
- 在干净的测试集上测量分类准确率。
- 对微调后的模型输出应用简单的标签错误检测器(如置信度阈值或小型辅助网络),评估表示是否能够揭示错误标记的样本。
该流水线 不需要额外的干净数据,只需噪声训练集以及用于 SSL 预训练阶段的计算预算(通常在同一数据集上跑几轮即可)。
结果与发现
| 数据集 | 噪声类型 | 噪声率 | 基线(从头)准确率 | SSL 预训练准确率 | Δ 准确率 |
|---|---|---|---|---|---|
| CIFAR‑10 | 均匀 | 40 % | 71.2 % | 78.9 % | +7.7 % |
| CIFAR‑10 | 非对称 | 60 % | 64.5 % | 73.3 % | +8.8 % |
| CIFAR‑100 | 真实世界(WebVision) | 50 % | 48.1 % | 56.4 % | +8.3 % |
- 在所有噪声水平下均实现 一致提升;噪声越大,提升幅度越大。
- 标签错误检测 的 F1 分数提升约 10 %,意味着下游清洗流水线更可靠。
- 与在 ImageNet 上预训练的模型相比,SSL 预训练方法在噪声 ≤20 % 时 持平,在噪声 ≥50 % 时 提升 最高可达 12 % 的绝对准确率。
这些数据表明,所学习的表示本质上比监督 ImageNet 预训练得到的特征更具 抗噪声 能力。
实际意义
- 以数据为中心的流水线:收集了大量不完美数据(如网络抓取图像、用户生成内容)的团队,可以加入 SSL 预训练阶段,获得一个“相对干净”的特征提取器,而无需人工标注。
- 降低对精挑细选子集的依赖:许多现有的噪声标签方法需要一个小的干净验证集用于损失校正或样本加权。本工作消除了该需求,简化了数据获取并降低了标注成本。
- 提升下游工具:更好的嵌入提升异常检测器、主动学习查询策略以及半监督标签传播的效果,加速数据清洗循环。
- 硬件友好:SSL 阶段可以在常规训练使用的同一硬件上完成(如单 GPU),且随数据规模线性扩展,适合大多数生产团队。
- 可迁移性:在噪声源域上获得的鲁棒骨干网络,可在相关任务(如目标检测、分割)上进行少量干净标注的微调。
局限性与未来工作
- 计算开销:加入 SSL 预训练会增加总体训练时间(通常是单次监督训练的 2–3 倍)。
- SSL 超参数:特征质量依赖于数据增强选择和损失温度等超参数;配置不佳会削弱收益。
- 领域迁移:实验局限于 CIFAR 规模的图像,尚未验证在高分辨率图像或非视觉模态(如音频、文本)上的效果。
- 理论解释:虽然经验结果强劲,但为何 SSL 能缓解标签噪声仍缺乏正式的理论分析。
未来工作可探索轻量级 SSL 变体、逐步引入噪声标签的 curriculum‑style 微调,以及将该方法扩展至多模态或流式数据场景。
作者
- David Szczecina
- Nicholas Pellegrino
- Paul Fieguth
论文信息
- arXiv ID: 2511.20844v1
- 分类: cs.LG, cs.AI, cs.NE
- 发布日期: 2025 年 11 月 25 日
- PDF: Download PDF