[论文] 使用自适应温度控制提升对比学习中的领域泛化
发布: (2026年1月13日 GMT+8 01:32)
7 min read
原文: arXiv
Source: arXiv - 2601.07748v1
Overview
本文解决了自监督学习中的一个常见痛点:在训练数据上表现出色的模型在面对新的、未见过的领域时往往会失效。通过根据领域信息动态调整对比 InfoNCE 损失中的温度参数,作者提升了学习到的嵌入的领域不变性,实现了在不牺牲分布内准确率的前提下,显著增强分布外(OOD)性能。
关键贡献
- 自适应温度调度: 引入一种原则性方法,根据负样本与锚点属于相同域的概率,对 InfoNCE 温度进行调节。
- 域感知对比损失: 在预训练期间利用可用的域标签,显式鼓励学习忽略域特定线索的表征。
- 实证验证: 在多域 MNIST 变体上展示该方法在 OOD 测试域以及原始分布任务上均优于标准对比学习和多种域泛化基线。
- 保持下游效用: 证明自适应方案不会削弱下游监督任务的性能,可直接替换现有对比学习流水线。
方法论
-
设置:
- 训练数据由样本 ((x_i, d_i)) 组成,其中 (d_i) 是已知的领域标签(例如,不同的手写风格、光照条件)。
- 目标是学习一个编码器 (f(\cdot)),其嵌入在任何未来领域上都具有通用性。
-
InfoNCE 损失回顾:
[ \mathcal{L}_{\text{InfoNCE}} = -\log \frac{\exp(\mathbf{z}_i^\top \mathbf{z}j / \tau)}{\sum{k=1}^{N}\exp(\mathbf{z}_i^\top \mathbf{z}_k / \tau)} ] 其中 (\tau) 为温度参数,用于控制损失对困难负样本的聚焦程度。 -
自适应温度 (\tau_{ik}):
- 计算 (p_{ik} = \Pr(d_k = d_i)),即随机抽取的负样本与锚点属于同一领域的经验概率。
- 设定 (\tau_{ik} = \tau_0 \cdot (1 - p_{ik}) + \epsilon),其中 (\tau_0) 为基准温度,(\epsilon) 用于防止除零。
- 同一领域的负样本会得到 更高 的温度(因此对损失的贡献更小),而不同领域的负样本会得到 更低 的温度,迫使编码器基于领域无关的特征将它们区分开来。
-
训练流程:
- 使用标准的数据增强生成正样本对。
- 领域标签仅用于计算 (\tau_{ik});它们 不 直接输入编码器,从而保持表示空间的纯净。
- 对比学习的其余训练循环(批次构建、优化器等)保持不变。
-
评估:
- 预训练完成后,在源领域上训练线性分类器,以评估分布内(in‑distribution)性能。
- 对于 OOD(分布外)评估,将同一分类器在持出领域上进行测试,该领域表现出协变量转移(例如,旋转的数字、不同的笔画粗细)。
结果与发现
| 指标 | 标准对比学习 | 域泛化基线 | Adaptive‑Temp(本工作) |
|---|---|---|---|
| 分布内准确率(线性探针) | 96.2 % | 95.8 % – 96.0 % | 97.4 % |
| OOD 准确率(未见域) | 71.5 % | 73.2 % – 75.0 % | 81.3 % |
| 分布内与 OOD 性能差距 | 24.7 % | 22.0 % – 21.8 % | 16.1 % |
- 自适应温度在多个域划分上始终获得更高的 OOD 分数。
- 值得注意的是,该方法 并未牺牲 分布内性能;实际上略有提升,可能是因为编码器学习到了更干净、更具判别性的特征。
- 消融实验表明,收益来源于温度自适应,而非仅仅将域标签作为辅助任务加入。
实际意义
- Plug‑and‑play upgrade: 开发者可以将自适应温度逻辑集成到现有的 PyTorch/TensorFlow 对比学习流水线中,只需进行极少的代码修改——只需根据域元数据计算每对样本的温度。
- Robust pre‑training for edge devices: 在将模型部署到遭遇多种传感器条件的设备上(例如配备不同摄像头模块的智能手机),该技术可以降低昂贵的特定领域微调需求。
- Better transfer learning: 与源域特性耦合较少的预训练编码器,在面对数据漂移时能够更可靠地支持下游任务(分类、检索、异常检测)。
- Data‑centric strategy: 鼓励团队在数据收集时记录轻量级的域标识(例如传感器类型、采集环境),从而打开一个简单而强大的通用化杠杆。
限制与未来工作
- 域标签要求: 该方法假设在预训练期间可以获取域注释。在完全无监督的情况下,如果没有此类元数据,其适用性受限。
- 每对温度的可扩展性: 为每个负样本对计算唯一的温度在非常大的批次中可能代价高昂;可能需要近似或基于聚类的代理。
- 基准范围: 实验仅局限于合成的多域 MNIST 变体。将在更大、真实世界的数据集上验证该方法(例如 ImageNet 风格的域迁移、医学影像)是下一步的开放任务。
- 理论分析: 虽然实证结果令人鼓舞,但对特定温度调度的更深入信息论解释可以强化贡献。
总体而言,本文提供了一种务实、低开销的对比学习微调,能够显著提升域泛化能力——这对所有构建面向混乱且不断变化的真实世界的自监督模型的研究者都是一次胜利。
作者
- Robert Lewis
- Katie Matton
- Rosalind W. Picard
- John Guttag
论文信息
- arXiv ID: 2601.07748v1
- 分类: cs.LG, cs.AI
- 发表时间: 2026年1月12日
- PDF: 下载 PDF