[Paper] AQUA-Net:自适应频率融合与光照感知网络用于水下图像增强
发布: (2025年12月6日 GMT+8 02:56)
6 min read
原文: arXiv
Source: arXiv - 2512.05960v1
概览
本文提出了 AQUA‑Net,一种轻量级深度学习架构,能够同时处理水下摄影中常见的颜色偏移、低对比度和雾化伪影。通过将空间特征与频域线索以及光照感知解码器相融合,模型在保持参数量低的同时,实现了高质量的图像增强,适用于嵌入式平台的实时部署。
主要贡献
- 自适应频域融合编码器 – 从傅里叶域提取互补的纹理细节,并将其注入空间特征流。
- 光照感知解码器 – 学习像素级光照图(受 Retinex 理论启发),实现自适应曝光校正并将反射率与光照效应分离。
- 双分支残差编码‑解码结构 – 在统一的残差框架中结合频域和光照路径,保持细微结构而不显著增加模型规模。
- 新高分辨率水下视频数据集 – 来自地中海,涵盖多样的深度、浊度和光照条件,提供稳健的基准测试。
- 参数更少的先进性能 – 在标准基准上匹配或超越现有方法,同时显著降低内存和计算需求。
方法论
AQUA‑Net 基于经典的编码‑解码主干网络,并增设了两个辅助分支:
-
频域融合编码器
- 将输入图像进行快速傅里叶变换(FFT)。
- 对低频幅度和高频相位分量分别通过浅层卷积块处理。
- 将这些频域特征上采样后与空间编码器的潜在表示拼接,使网络获得更丰富的纹理和边缘信息,弥补水下散射导致的细节损失。
-
光照感知解码器
- 与编码器的层级结构对称,预测光照图 L(x, y) 与增强后的反射率 R(x, y)。
- 最终输出计算为
Enhanced = R ⊙ L(逐元素相乘),使网络能够局部自适应曝光——这正是人眼在不均匀水下光照下的感知方式。 - 编码器与解码器层之间的残差连接帮助保留结构细节。
两个分支通过复合损失共同训练:
- 对增强图像的 L1 重建损失,
- 基于 VGG 的 感知损失,以保持高层语义,
- 频域一致性损失,确保输出的傅里叶谱与干净参考图像保持一致。
结果与发现
| 数据集 | PSNR ↑ | SSIM ↑ | Params (M) |
|---|---|---|---|
| UIEB(测试) | 28.7 | 0.92 | 1.9 |
| RUIE | 27.4 | 0.89 | 1.9 |
| 新的地中海视频集 | 29.1 | 0.94 | 1.9 |
- AQUA‑Net 在 参数量约减少 40 % 的情况下,达到或略超重型 SOTA 模型(如 UWCNN、WaterNet)的性能。
- 消融实验表明,去除频域分支会导致 PSNR 下降约 1.2 dB,去除光照分支会使 SSIM 降低约 0.03,验证了两者的互补作用。
- 定性视觉对比显示,珊瑚纹理更锐利、色彩更自然、雾化更少,尤其在深海帧中传统方法难以处理的场景下表现突出。
实际意义
- 实时水下机器人 – 低占用模型可在 NVIDIA Jetson 或基于 ARM 的视觉处理器上运行,为自主水下航行器(AUV)和遥控潜水器(ROV)提供板载图像增强。
- 海洋监测与检测 – 更清晰的图像提升后续计算机视觉任务(目标检测、分割、物种分类)的准确性,降低因颜色失真导致的误报。
- 消费级水下摄影 – 移动端应用可集成 AQUA‑Net,实现拍摄后即时校正,且不会显著耗电或依赖云端。
- 数据集生成 – 频域融合思路可用于合成逼真的水下退化效果,为其他视觉模型的训练提供更多标注数据,加速该细分领域的研究。
局限性与未来工作
- 当前模型假设每帧仅有 单一光照图;对于光源快速移动等高度动态光照场景仍可能出现伪影。
- 虽然参数量低,但 在超低功耗微控制器(如 8 位 MCU)上的推理速度 尚未评估。
- 作者计划探索 自监督学习 在无配对水下视频上的训练,并将频域分支扩展至多尺度小波表示,以实现更细腻的纹理恢复。
作者
- Munsif Ali
- Najmul Hassan
- Lucia Ventura
- Davide Di Bari
- Simonepietro Canese
论文信息
- arXiv ID: 2510.05960v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025 年 12 月 5 日
- PDF: Download PDF