[Paper] AQUA-Net:自适应频率融合与光照感知网络用于水下图像增强

发布: (2025年12月6日 GMT+8 02:56)
6 min read
原文: arXiv

Source: arXiv - 2512.05960v1

概览

本文提出了 AQUA‑Net,一种轻量级深度学习架构,能够同时处理水下摄影中常见的颜色偏移、低对比度和雾化伪影。通过将空间特征与频域线索以及光照感知解码器相融合,模型在保持参数量低的同时,实现了高质量的图像增强,适用于嵌入式平台的实时部署。

主要贡献

  • 自适应频域融合编码器 – 从傅里叶域提取互补的纹理细节,并将其注入空间特征流。
  • 光照感知解码器 – 学习像素级光照图(受 Retinex 理论启发),实现自适应曝光校正并将反射率与光照效应分离。
  • 双分支残差编码‑解码结构 – 在统一的残差框架中结合频域和光照路径,保持细微结构而不显著增加模型规模。
  • 新高分辨率水下视频数据集 – 来自地中海,涵盖多样的深度、浊度和光照条件,提供稳健的基准测试。
  • 参数更少的先进性能 – 在标准基准上匹配或超越现有方法,同时显著降低内存和计算需求。

方法论

AQUA‑Net 基于经典的编码‑解码主干网络,并增设了两个辅助分支:

  1. 频域融合编码器

    • 将输入图像进行快速傅里叶变换(FFT)。
    • 对低频幅度和高频相位分量分别通过浅层卷积块处理。
    • 将这些频域特征上采样后与空间编码器的潜在表示拼接,使网络获得更丰富的纹理和边缘信息,弥补水下散射导致的细节损失。
  2. 光照感知解码器

    • 与编码器的层级结构对称,预测光照图 L(x, y) 与增强后的反射率 R(x, y)
    • 最终输出计算为 Enhanced = R ⊙ L(逐元素相乘),使网络能够局部自适应曝光——这正是人眼在不均匀水下光照下的感知方式。
    • 编码器与解码器层之间的残差连接帮助保留结构细节。

两个分支通过复合损失共同训练:

  • 对增强图像的 L1 重建损失
  • 基于 VGG 的 感知损失,以保持高层语义,
  • 频域一致性损失,确保输出的傅里叶谱与干净参考图像保持一致。

结果与发现

数据集PSNR ↑SSIM ↑Params (M)
UIEB(测试)28.70.921.9
RUIE27.40.891.9
新的地中海视频集29.10.941.9
  • AQUA‑Net 在 参数量约减少 40 % 的情况下,达到或略超重型 SOTA 模型(如 UWCNN、WaterNet)的性能。
  • 消融实验表明,去除频域分支会导致 PSNR 下降约 1.2 dB,去除光照分支会使 SSIM 降低约 0.03,验证了两者的互补作用。
  • 定性视觉对比显示,珊瑚纹理更锐利、色彩更自然、雾化更少,尤其在深海帧中传统方法难以处理的场景下表现突出。

实际意义

  • 实时水下机器人 – 低占用模型可在 NVIDIA Jetson 或基于 ARM 的视觉处理器上运行,为自主水下航行器(AUV)和遥控潜水器(ROV)提供板载图像增强。
  • 海洋监测与检测 – 更清晰的图像提升后续计算机视觉任务(目标检测、分割、物种分类)的准确性,降低因颜色失真导致的误报。
  • 消费级水下摄影 – 移动端应用可集成 AQUA‑Net,实现拍摄后即时校正,且不会显著耗电或依赖云端。
  • 数据集生成 – 频域融合思路可用于合成逼真的水下退化效果,为其他视觉模型的训练提供更多标注数据,加速该细分领域的研究。

局限性与未来工作

  • 当前模型假设每帧仅有 单一光照图;对于光源快速移动等高度动态光照场景仍可能出现伪影。
  • 虽然参数量低,但 在超低功耗微控制器(如 8 位 MCU)上的推理速度 尚未评估。
  • 作者计划探索 自监督学习 在无配对水下视频上的训练,并将频域分支扩展至多尺度小波表示,以实现更细腻的纹理恢复。

作者

  • Munsif Ali
  • Najmul Hassan
  • Lucia Ventura
  • Davide Di Bari
  • Simonepietro Canese

论文信息

  • arXiv ID: 2510.05960v1
  • 分类: cs.CV, cs.AI
  • 发表时间: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »