[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

发布: 1天前 (2026年4月23日 GMT+8 15:07)

9 分钟阅读

原文: arXiv

Source: arXiv - 2604.21349v1

概览

自监督学习（SSL）已成为在海量航空影像集合上预训练视觉模型的首选方式，但大多数 SSL 方法假设它们所使用的增强会保留底层场景语义。实际遥感数据中，气象效应（雾、雨）、运动模糊、遮挡以及其他退化会抹去关键的视觉线索，使得常见的“让两个视图看起来相同”目标变得有害。论文 “Trust‑SSL: Additive‑Residual Selective Invariance for Robust Aerial Self‑Supervised Learning” 提出了一种新的训练配方，使模型仅信任被破坏视图中的干净部分，从而显著提升在这些恶劣条件下的鲁棒性。

关键贡献

信任加权对齐： 引入了每个样本、每种腐蚀的“信任权重”，用于调节对比对齐损失，使网络能够忽略不可靠的区域。
加性残差形式： 与其对损失进行乘法门控，信任权重被作为残差项相加，作者证明这在保持主干网络质量的同时仍能提供鲁棒性。
对信任权重停止梯度： 将信任权重从梯度流中分离，防止其劫持表征学习的动态。
实证优势： 在六种主干网络架构上，Trust‑SSL 在三个主要航空基准（EuroSAT、AID、NWPU‑RESISC45）上实现了最高的线性探测准确率，例如 90.20 % 对比 SimCLR 的 88.46 %。
针对腐蚀的提升： 在严重雾化的 EuroSAT 图像（严重程度 = 5）上，相比原始 SimCLR 提升了最高 +19.9 % 的准确率。
零样本跨域压力测试： 在 BDD100K 天气划分上将 Mahalanobis AUROC 提高了 1–3 %，表明更好的不确定性感知。
证据扩展： 提供基于 Dempster‑Shafer 的变体，能够为每个预测输出可解释的“冲突”和“无知”分数。
开源发布： 完整代码和预训练模型已在 GitHub 上公开。

方法论

Base SSL framework – 作者从标准的对比（SimCLR‑style）或基于方差（VICReg‑style）自监督学习目标出发，使同一图像的两个增强视图相互靠近。
Corruption‑aware view generation – 对每张图像生成一个 clean（清晰）视图和一个 corrupted（受损）视图（例如雾、运动模糊、雨）。
Trust weight computation – 一个轻量化的头部预测一个标量信任值 τ ∈ [0, 1]，用于受损视图，估计其仍保留的语义信息量。该预测是 detached（停止梯度）的，因而不会收到梯度更新。
Additive‑residual loss

$$\mathcal{L} = \mathcal{L}{\text{base}} + (1 - \tau),\mathcal{L}{\text{residual}}$$
- 𝓛_base 是清晰视图与受损视图嵌入之间的常规对比对齐损失。
- 𝓛_residual 是额外的残差项，鼓励清晰视图保持接近其自身的表示，当 τ 较低时充当安全网。
Training protocol – 模型在包含 210 k 张航空图像的语料库上训练 200 个 epoch，使用标准数据增强并加入腐蚀管线。
Evidential variant – 与其预测单一的 τ，模型预测一个 Dirichlet 分布来表示信任，从而利用 Dempster‑Shafer 融合将 conflict（冲突/不一致）与 ignorance（缺乏证据）区分开来。

结果与发现

数据集	主干网络	SimCLR	VICReg	Trust‑SSL
EuroSAT	ResNet‑50	88.46 %	89.82 %	90.20 %
AID	ViT‑B/16	84.3 %	85.7 %	86.5 %
NWPU‑RESISC45	Swin‑T	81.9 %	83.2 %	84.1 %

严重雾霾 (s = 5) 在 EuroSAT 上：Trust‑SSL 的准确率比 SimCLR 高 +19.9 %。
Mahalanobis AUROC 在 BDD100K 天气划分（零样本）上：比基线提升 1–3 %，表明对分布外天气条件的检测更好。
消融实验：将加性残差项替换为乘性门会导致性能下降，验证了残差设计的重要性。
证据分数：Dempster‑Shafer 版本提供每个样本的不确定性度量，这些度量与实际腐蚀严重程度相关，可用于下游风险感知流水线。

实际意义

为遥感流水线提供更可靠的预训练 – 卫星影像分类、变化检测和目标检测模型可以从更不易受到雾霾、雨水或运动模糊影响的 Trust‑SSL 检查点开始训练。
不确定性感知推理 – 证据变体提供明确的“置信度”信号，使系统能够将低信任度的预测标记给人工审查，或触发替代处理（例如请求更高分辨率的数据）。
成本效益高的数据采集 – 运营者可以安全地使用更便宜、质量较低的影像（如小型 UAV 或低成本卫星获取的图像），因为 SSL 主干已经学会如何抵消受损信息的影响。
跨域鲁棒性 – 改进的 Mahalanobis AUROC 表明，使用 Trust‑SSL 训练的模型在检测域迁移方面表现更佳，这在将模型从一个地理区域部署到另一个区域时尤为常见。
即插即用的升级 – 由于 Trust‑SSL 构建在现有 SSL 框架之上，团队只需在当前训练脚本中加入 trust‑weight 头和残差损失，即可实现最小代码改动的集成。

限制与未来工作

Trust predictor simplicity – 当前的每样本标量信任是在没有显式监督的情况下学习的；更复杂、空间可变的信任图可以更好地捕捉局部腐败。
Corruption taxonomy – 实验仅聚焦于少数几种合成退化（雾、雨、模糊）。真实世界的大气效应可能更为复杂；将该方法扩展到处理混合或未知的退化仍是一个未解的挑战。
Scalability to massive backbones – 虽然论文评估了六种骨干网络，但将其扩展到最大的视觉 Transformer（例如 ViT‑L/14）以及多模态卫星‑雷达数据仍有待验证。
Downstream task evaluation – 本研究主要报告线性探测和零样本 AUROC 结果；评估对完全微调任务（如语义分割或目标检测）的影响将进一步巩固其实用价值。

总体而言，Trust‑SSL 提供了一种具体、易于采用的设计模式，使自监督视觉模型对现场航空影像中常见的各种退化更具鲁棒性。

作者

Wadii Boulila
Adel Ammar
Bilel Benjdira
Maha Driss

论文信息

arXiv ID: 2604.21349v1
Categories: cs.CV, cs.AI, cs.LG, cs.NE
Published: 2026年4月23日
PDF: Download PDF

[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] FedSIR：带噪声标签的联邦学习的谱客户端识别与重新标记

[Paper] 全球海上风电基础设施：来自密集Sentinel-1时间序列的部署与运营动态