[Paper] Trust-SSL:加性残差选择性不变性用于鲁棒航空自监督学习

发布: (2026年4月23日 GMT+8 15:07)
9 分钟阅读
原文: arXiv

Source: arXiv - 2604.21349v1

概览

自监督学习(SSL)已成为在海量航空影像集合上预训练视觉模型的首选方式,但大多数 SSL 方法假设它们所使用的增强会保留底层场景语义。实际遥感数据中,气象效应(雾、雨)、运动模糊、遮挡以及其他退化会抹去关键的视觉线索,使得常见的“让两个视图看起来相同”目标变得有害。论文 “Trust‑SSL: Additive‑Residual Selective Invariance for Robust Aerial Self‑Supervised Learning” 提出了一种新的训练配方,使模型仅 信任 被破坏视图中的干净部分,从而显著提升在这些恶劣条件下的鲁棒性。

关键贡献

  • 信任加权对齐: 引入了每个样本、每种腐蚀的“信任权重”,用于调节对比对齐损失,使网络能够忽略不可靠的区域。
  • 加性残差形式: 与其对损失进行乘法门控,信任权重被作为残差项相加,作者证明这在保持主干网络质量的同时仍能提供鲁棒性。
  • 对信任权重停止梯度: 将信任权重从梯度流中分离,防止其劫持表征学习的动态。
  • 实证优势: 在六种主干网络架构上,Trust‑SSL 在三个主要航空基准(EuroSAT、AID、NWPU‑RESISC45)上实现了最高的线性探测准确率,例如 90.20 % 对比 SimCLR 的 88.46 %。
  • 针对腐蚀的提升: 在严重雾化的 EuroSAT 图像(严重程度 = 5)上,相比原始 SimCLR 提升了最高 +19.9 % 的准确率。
  • 零样本跨域压力测试: 在 BDD100K 天气划分上将 Mahalanobis AUROC 提高了 1–3 %,表明更好的不确定性感知。
  • 证据扩展: 提供基于 Dempster‑Shafer 的变体,能够为每个预测输出可解释的“冲突”和“无知”分数。
  • 开源发布: 完整代码和预训练模型已在 GitHub 上公开。

方法论

  1. Base SSL framework – 作者从标准的对比(SimCLR‑style)或基于方差(VICReg‑style)自监督学习目标出发,使同一图像的两个增强视图相互靠近。

  2. Corruption‑aware view generation – 对每张图像生成一个 clean(清晰)视图和一个 corrupted(受损)视图(例如雾、运动模糊、雨)。

  3. Trust weight computation – 一个轻量化的头部预测一个标量信任值 τ ∈ [0, 1],用于受损视图,估计其仍保留的语义信息量。该预测是 detached(停止梯度) 的,因而不会收到梯度更新。

  4. Additive‑residual loss

    $$\mathcal{L} = \mathcal{L}{\text{base}} + (1 - \tau),\mathcal{L}{\text{residual}}$$

    • 𝓛_base 是清晰视图与受损视图嵌入之间的常规对比对齐损失。
    • 𝓛_residual 是额外的残差项,鼓励清晰视图保持接近其自身的表示,当 τ 较低时充当安全网。
  5. Training protocol – 模型在包含 210 k 张航空图像的语料库上训练 200 个 epoch,使用标准数据增强并加入腐蚀管线。

  6. Evidential variant – 与其预测单一的 τ,模型预测一个 Dirichlet 分布来表示信任,从而利用 Dempster‑Shafer 融合将 conflict(冲突/不一致)与 ignorance(缺乏证据)区分开来。

结果与发现

数据集主干网络SimCLRVICRegTrust‑SSL
EuroSATResNet‑5088.46 %89.82 %90.20 %
AIDViT‑B/1684.3 %85.7 %86.5 %
NWPU‑RESISC45Swin‑T81.9 %83.2 %84.1 %
  • 严重雾霾 (s = 5) 在 EuroSAT 上:Trust‑SSL 的准确率比 SimCLR 高 +19.9 %
  • Mahalanobis AUROC 在 BDD100K 天气划分(零样本)上:比基线提升 1–3 %,表明对分布外天气条件的检测更好。
  • 消融实验:将加性残差项替换为乘性门会导致性能下降,验证了残差设计的重要性。
  • 证据分数:Dempster‑Shafer 版本提供每个样本的不确定性度量,这些度量与实际腐蚀严重程度相关,可用于下游风险感知流水线。

实际意义

  • 为遥感流水线提供更可靠的预训练 – 卫星影像分类、变化检测和目标检测模型可以从更不易受到雾霾、雨水或运动模糊影响的 Trust‑SSL 检查点开始训练。
  • 不确定性感知推理 – 证据变体提供明确的“置信度”信号,使系统能够将低信任度的预测标记给人工审查,或触发替代处理(例如请求更高分辨率的数据)。
  • 成本效益高的数据采集 – 运营者可以安全地使用更便宜、质量较低的影像(如小型 UAV 或低成本卫星获取的图像),因为 SSL 主干已经学会如何抵消受损信息的影响。
  • 跨域鲁棒性 – 改进的 Mahalanobis AUROC 表明,使用 Trust‑SSL 训练的模型在检测域迁移方面表现更佳,这在将模型从一个地理区域部署到另一个区域时尤为常见。
  • 即插即用的升级 – 由于 Trust‑SSL 构建在现有 SSL 框架之上,团队只需在当前训练脚本中加入 trust‑weight 头和残差损失,即可实现最小代码改动的集成。

限制与未来工作

  • Trust predictor simplicity – 当前的每样本标量信任是在没有显式监督的情况下学习的;更复杂、空间可变的信任图可以更好地捕捉局部腐败。
  • Corruption taxonomy – 实验仅聚焦于少数几种合成退化(雾、雨、模糊)。真实世界的大气效应可能更为复杂;将该方法扩展到处理混合或未知的退化仍是一个未解的挑战。
  • Scalability to massive backbones – 虽然论文评估了六种骨干网络,但将其扩展到最大的视觉 Transformer(例如 ViT‑L/14)以及多模态卫星‑雷达数据仍有待验证。
  • Downstream task evaluation – 本研究主要报告线性探测和零样本 AUROC 结果;评估对完全微调任务(如语义分割或目标检测)的影响将进一步巩固其实用价值。

总体而言,Trust‑SSL 提供了一种具体、易于采用的设计模式,使自监督视觉模型对现场航空影像中常见的各种退化更具鲁棒性。

作者

  • Wadii Boulila
  • Adel Ammar
  • Bilel Benjdira
  • Maha Driss

论文信息

  • arXiv ID: 2604.21349v1
  • Categories: cs.CV, cs.AI, cs.LG, cs.NE
  • Published: 2026年4月23日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »