[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

发布: 2个月前 (2025年12月6日 GMT+8 02:56)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.05960v1

概览

本文提出了 AQUA‑Net，一种轻量级深度学习架构，能够同时处理水下摄影中常见的颜色偏移、低对比度和雾化伪影。通过将空间特征与频域线索以及光照感知解码器相融合，模型在保持参数量低的同时，实现了高质量的图像增强，适用于嵌入式平台的实时部署。

AQUA‑Net 基于经典的编码‑解码主干网络，并增设了两个辅助分支：

频域融合编码器
- 将输入图像进行快速傅里叶变换（FFT）。
- 对低频幅度和高频相位分量分别通过浅层卷积块处理。
- 将这些频域特征上采样后与空间编码器的潜在表示拼接，使网络获得更丰富的纹理和边缘信息，弥补水下散射导致的细节损失。
光照感知解码器
- 与编码器的层级结构对称，预测光照图 L(x, y) 与增强后的反射率 R(x, y)。
- 最终输出计算为 Enhanced = R ⊙ L（逐元素相乘），使网络能够局部自适应曝光——这正是人眼在不均匀水下光照下的感知方式。
- 编码器与解码器层之间的残差连接帮助保留结构细节。

两个分支通过复合损失共同训练：

数据集	PSNR ↑	SSIM ↑	Params (M)
UIEB（测试）	28.7	0.92	1.9
RUIE	27.4	0.89	1.9
新的地中海视频集	29.1	0.94	1.9

实时水下机器人 – 低占用模型可在 NVIDIA Jetson 或基于 ARM 的视觉处理器上运行，为自主水下航行器（AUV）和遥控潜水器（ROV）提供板载图像增强。
海洋监测与检测 – 更清晰的图像提升后续计算机视觉任务（目标检测、分割、物种分类）的准确性，降低因颜色失真导致的误报。
消费级水下摄影 – 移动端应用可集成 AQUA‑Net，实现拍摄后即时校正，且不会显著耗电或依赖云端。
数据集生成 – 频域融合思路可用于合成逼真的水下退化效果，为其他视觉模型的训练提供更多标注数据，加速该细分领域的研究。