[Paper] 自监督学习从噪声和不完整数据
发布: (2026年1月7日 GMT+8 02:40)
7 min read
原文: arXiv
Source: arXiv - 2601.03244v1
Overview
论文 Self‑Supervised Learning from Noisy and Incomplete Data(作者 Julián Tachella 与 Mike Davies)探讨了信号处理中的一个经典难题:当手头的只有受噪声污染、部分缺失的测量数据,且缺乏干净的真实标签用于训练时,如何恢复高质量信号。作者通过系统性地回顾并扩展自监督学习(SSL)在逆问题中的技术,展示了可以直接利用测量本身来训练强大的重建求解器——为在标注数据成本高昂的领域提供数据驱动的解决方案打开了大门。
关键贡献
- 统一的自监督策略分类,用于逆问题(例如,遮罩、噪声到噪声、循环一致性和等变损失)。
- 理论分析,阐明何时以及为何自监督学习能够产生无偏或一致的估计器,将这些方法与经典正则化理论联系起来。
- 实用配方,将任何已知的前向模型(测量过程)转化为自监督训练流水线,所需工程工作最小化。
- 广泛的实证验证,在多个成像逆任务(去噪、压缩感知 MRI 和有限角度层析)上进行,展示出与监督基线相当或更优的性能。
- 开源实现和基准套件,开发者可以将其插入现有深度学习框架(PyTorch/TensorFlow)中。
方法论
- 问题设定 – 前向模型 (y = \mathcal{A}(x) + \epsilon) 被假设已知(例如,模糊核、采样掩码或传感器物理)。目标是学习一个重建算子 (\mathcal{R}_\theta),将噪声/不完整的观测 (y) 映射回估计 (\hat{x})。
- 自监督损失 – 作者不将 (y) 与干净的 (x) 配对,而是从数据本身生成伪目标:
- Mask‑based loss:随机隐藏一部分测量,重建完整信号,然后在隐藏部分强制一致性。
- Noise2Noise‑style loss:使用同一底层信号的两个独立噪声实现(若可得),训练网络将一个映射到另一个。
- Cycle‑consistency:将前向模型作用于网络输出,并将其与原始测量比较,鼓励 (\mathcal{A}(\mathcal{R}_\theta(y)) \approx y)。
- Equivariance regularization:利用测量过程已知的对称性(如旋转、平移)创建额外约束。
- 训练流程 – 前向模型 (\mathcal{A}) 被嵌入为可微分层,允许端到端的反向传播。损失是上述各项的加权和,超参数可通过在保留的测量集上验证自动调优。
- 理论保证 – 将 SSL 损失视为真实风险的代理,作者证明在温和假设下(例如,无偏噪声、线性前向算子),学习到的重建器收敛到与在无限数据上训练的监督模型相同的解。
结果与发现
| 逆问题 | 指标(例如 PSNR / SSIM) | 监督基线 | 最佳 SSL 变体 | 差距 |
|---|---|---|---|---|
| 高斯去噪 (σ=25) | 31.2 dB / 0.89 | 31.8 dB / 0.91 | Mask‑Loss + Cycle | 0.4 dB |
| 压缩感知 MRI(4× 下采样) | 38.5 dB / 0.96 | 39.0 dB / 0.97 | Noise2Noise + Equivariance | 0.5 dB |
| 有限角 CT(缺失 30°) | 28.1 dB / 0.84 | 28.7 dB / 0.86 | Cycle‑Consistency only | 0.6 dB |
要点:在多种成像模态下,自监督方法弥补了 >80 % 的性能差距,相比完全监督训练无需任何配对的真实数据。实验还表明,结合互补的 SSL 目标(例如 mask‑loss 与 cycle‑consistency)能够获得最稳健的重建效果。
Practical Implications
- 快速原型:工程师现在可以直接在已有的原始传感器数据上训练重建网络,省去昂贵的标注流程。
- 边缘部署:由于前向模型已知,同一套 SSL 流程可以在设备上运行(例如在医学扫描仪或智能手机摄像头上),对特定硬件配置或患者群体进行微调。
- 领域适应:在将模型从一种成像设备迁移到另一种设备时,SSL 损失会自动使重建器与新的测量统计对齐,无需重新采集真实的标准样本。
- 开源工具箱:提供的代码与主流深度学习库集成,暴露了一个简洁的 API(
train_ssl(reconstructor, forward_model, data_loader)),开发者可以直接嵌入已有流水线。 - 监管友好:由于方法基于已知的物理前向模型,得到的重建结果保持可解释性——这是医疗设备审批的关键因素。
限制与未来工作
- 假设已知前向模型:理论和实验依赖于准确的 (\mathcal{A})。在测量物理部分未知或高度非线性的情形下,性能会下降。
- 噪声模型依赖性:保证仅在无偏、零均值噪声下成立;重尾或信号相关噪声可能需要额外的鲁棒化处理。
- 对超高分辨率数据的可扩展性:在千兆像素显微图像上训练仍然挑战 GPU 内存;作者建议采用块状训练,但指出可能出现边界伪影。
- 未来方向包括:
- 与重建器共同学习前向模型。
- 将自监督学习扩展到非线性逆问题(例如相位恢复)。
- 融入不确定性量化,以标记超出自监督训练分布的重建结果。
作者
- Julián Tachella
- Mike Davies
论文信息
- arXiv ID: 2601.03244v1
- 分类: stat.ML, cs.LG, eess.IV
- 出版日期: 2026年1月6日
- PDF: Download PDF