[论文] Hero-Mamba：基于 Mamba 的双域学习用于水下图像增强

发布: 2天前 (2026年4月18日 GMT+8 01:24)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16266v1

请提供您希望翻译的具体文本内容，我将按照要求将其译成简体中文。

概述

水下摄影受到色偏、低对比度以及因光吸收和散射导致的细节模糊的困扰。全新的 Hero‑Mamba 模型通过结合轻量级的基于 Mamba 的架构和双域学习策略来解决这些问题，该策略同时处理原始 RGB 图像及其频域（FFT）表示。其结果是一个快速且高质量的增强器，在标准基准测试中超越了当前基于 CNN 和 Transformer 的方法。

关键贡献

双域学习: 同时将空间（RGB）和光谱（FFT）数据输入网络，使其能够将颜色/亮度退化与纹理/噪声伪影分离。
基于 Mamba 的 SS2D 块: 利用状态空间序列建模（Mamba）捕获全局上下文，计算复杂度为线性，避免了视觉 Transformer 的二次成本，同时仍能建模远程依赖。
带背景光先验的 ColorFusion 块: 引入物理启发的先验以指导准确的颜色恢复，在复杂的水下场景中提升色相保真度。
领先的性能: 在 LSUI 数据集上实现 PSNR = 25.802 和 SSIM = 0.913，超越现有的 CNN 和 Transformer 基线。
高效推理: 线性复杂度的骨干网络使得在普通 GPU 上对高分辨率水下视频进行实时处理成为可能。

方法论

输入准备 – 将每幅水下图像转换为两个平行流：
- 空间流（Spatial stream）：原始 RGB 图像。
- 光谱流（Spectral stream）：其二维快速傅里叶变换（FFT）的幅值，突出重复模式和高频噪声。
使用 SS2D 块进行特征提取 – 两个流都通过一堆 SS2D（Spatial‑Spectral 2‑Dimensional）Mamba 块。这些块将图像视为沿高度和宽度的序列，应用状态空间模型，以 O(N) 的代价捕获整个帧的依赖关系（其中 N 为像素数量）。
跨域融合 – 通过拼接和轻量级注意力机制将两条流的特征合并，使网络能够学习颜色/亮度线索（来自 RGB）与纹理/噪声线索（来自 FFT）之间的交互。
ColorFusion 模块 – 一个专用子网络接收融合特征以及 背景光先验（从图像最暗区域估计）。该先验引导颜色校正过程，确保恢复的色调与水下的物理光照条件相匹配。
重建 – 通过一系列卷积层将融合表示映射回像素空间，生成最终的增强 RGB 图像。

整个管道可端到端训练，使用 L1 重建损失、基于 VGG 的 感知损失（perceptual loss）以及 颜色一致性损失（penalizes deviations from the background light prior）相结合的方式进行优化。

结果与发现

数据集	PSNR ↑	SSIM ↑	运行时间 (1080Ti)
LSUI	25.802	0.913	0.032 s / 720p
UIEB	27.1 (≈ +0.6 dB 超过最佳 CNN)	0.925 (≈ +0.02)	可比

视觉质量： Hero‑Mamba 恢复自然的蓝色和绿色，同时保留细腻纹理，如与近期基于 Transformer 的增强器的并排对比所示。
泛化能力： 在 LSUI 上训练的模型在无需微调的情况下即可良好迁移到 UIEB，表明其对不同水体类型和光照条件的鲁棒性。
效率： 受益于线性复杂度的 SS2D 模块，推理能够平稳扩展到 4K 帧，而在该分辨率下许多 Transformer 会变得极其缓慢。

实际意义

实时水下机器人: 自动水下航行器 (AUV) 和遥控潜水器 (ROV) 可以集成 Hero‑Mamba 进行机载视觉导航、目标检测和制图，而不会牺牲帧率。
海洋研究与保护: 科学家可以快速清理大量图像档案，提升后续分析，如珊瑚健康评估或物种计数。
消费应用: 潜水相机制造商和移动应用可以嵌入该模型，为终端用户提供即时的高质量照片，提升用户体验并降低后期处理工作量。
跨领域潜力: 双域概念（空间 + FFT）和基于 Mamba 的骨干网络可以适用于其他成像问题，在频域线索有价值的场景，如低光摄影、医学超声去噪或卫星图像修复。

局限性与未来工作

先验估计敏感性： 背景光先验假设环境光相对均匀；在高度浑浊或多光源环境中，估计可能噪声较大，影响颜色保真度。
训练数据偏差： 模型主要在清水数据集上进行训练；在极端条件（例如深海、颗粒物大量存在）下的性能可能下降。
未来方向： 作者计划探索自适应先验学习，结合深度或偏振线索，并将双域框架扩展到具有时间一致性约束的视频序列中。

Hero‑Mamba 证明，将高效的状态空间模型与巧妙的双域输入相结合，最终可以为开发者提供一个实用的、高性能的水下图像增强工具。

作者

Tejeswar Pokuri
Shivarth Rai

论文信息

arXiv ID: 2604.16266v1
类别: cs.CV
出版时间: 2026年4月17日
PDF: 下载 PDF

[论文] Hero-Mamba：基于 Mamba 的双域学习用于水下图像增强

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 重新利用 3D 生成模型进行自回归布局生成

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

[Paper] 视觉语言模型的失效点在哪里？全球尺度图像地理定位分析