[论文] Hero-Mamba:基于 Mamba 的双域学习用于水下图像增强

发布: (2026年4月18日 GMT+8 01:24)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.16266v1

请提供您希望翻译的具体文本内容,我将按照要求将其译成简体中文。

概述

水下摄影受到色偏、低对比度以及因光吸收和散射导致的细节模糊的困扰。全新的 Hero‑Mamba 模型通过结合轻量级的基于 Mamba 的架构和双域学习策略来解决这些问题,该策略同时处理原始 RGB 图像及其频域(FFT)表示。其结果是一个快速且高质量的增强器,在标准基准测试中超越了当前基于 CNN 和 Transformer 的方法。

关键贡献

  • 双域学习: 同时将空间(RGB)和光谱(FFT)数据输入网络,使其能够将颜色/亮度退化与纹理/噪声伪影分离。
  • 基于 Mamba 的 SS2D 块: 利用状态空间序列建模(Mamba)捕获全局上下文,计算复杂度为 线性,避免了视觉 Transformer 的二次成本,同时仍能建模远程依赖。
  • 带背景光先验的 ColorFusion 块: 引入物理启发的先验以指导准确的颜色恢复,在复杂的水下场景中提升色相保真度。
  • 领先的性能: 在 LSUI 数据集上实现 PSNR = 25.802SSIM = 0.913,超越现有的 CNN 和 Transformer 基线。
  • 高效推理: 线性复杂度的骨干网络使得在普通 GPU 上对高分辨率水下视频进行实时处理成为可能。

方法论

  1. 输入准备 – 将每幅水下图像转换为两个平行流:

    • 空间流(Spatial stream):原始 RGB 图像。
    • 光谱流(Spectral stream):其二维快速傅里叶变换(FFT)的幅值,突出重复模式和高频噪声。
  2. 使用 SS2D 块进行特征提取 – 两个流都通过一堆 SS2D(Spatial‑Spectral 2‑Dimensional)Mamba 块。这些块将图像视为沿高度和宽度的序列,应用状态空间模型,以 O(N) 的代价捕获整个帧的依赖关系(其中 N 为像素数量)。

  3. 跨域融合 – 通过拼接和轻量级注意力机制将两条流的特征合并,使网络能够学习颜色/亮度线索(来自 RGB)与纹理/噪声线索(来自 FFT)之间的交互。

  4. ColorFusion 模块 – 一个专用子网络接收融合特征以及 背景光先验(从图像最暗区域估计)。该先验引导颜色校正过程,确保恢复的色调与水下的物理光照条件相匹配。

  5. 重建 – 通过一系列卷积层将融合表示映射回像素空间,生成最终的增强 RGB 图像。

整个管道可端到端训练,使用 L1 重建损失、基于 VGG 的 感知损失(perceptual loss)以及 颜色一致性损失(penalizes deviations from the background light prior)相结合的方式进行优化。

结果与发现

数据集PSNR ↑SSIM ↑运行时间 (1080Ti)
LSUI25.8020.9130.032 s / 720p
UIEB27.1 (≈ +0.6 dB 超过最佳 CNN)0.925 (≈ +0.02)可比
  • 视觉质量: Hero‑Mamba 恢复自然的蓝色和绿色,同时保留细腻纹理,如与近期基于 Transformer 的增强器的并排对比所示。
  • 泛化能力: 在 LSUI 上训练的模型在无需微调的情况下即可良好迁移到 UIEB,表明其对不同水体类型和光照条件的鲁棒性。
  • 效率: 受益于线性复杂度的 SS2D 模块,推理能够平稳扩展到 4K 帧,而在该分辨率下许多 Transformer 会变得极其缓慢。

实际意义

  • 实时水下机器人: 自动水下航行器 (AUV) 和遥控潜水器 (ROV) 可以集成 Hero‑Mamba 进行机载视觉导航、目标检测和制图,而不会牺牲帧率。
  • 海洋研究与保护: 科学家可以快速清理大量图像档案,提升后续分析,如珊瑚健康评估或物种计数。
  • 消费应用: 潜水相机制造商和移动应用可以嵌入该模型,为终端用户提供即时的高质量照片,提升用户体验并降低后期处理工作量。
  • 跨领域潜力: 双域概念(空间 + FFT)和基于 Mamba 的骨干网络可以适用于其他成像问题,在频域线索有价值的场景,如低光摄影、医学超声去噪或卫星图像修复。

局限性与未来工作

  • 先验估计敏感性: 背景光先验假设环境光相对均匀;在高度浑浊或多光源环境中,估计可能噪声较大,影响颜色保真度。
  • 训练数据偏差: 模型主要在清水数据集上进行训练;在极端条件(例如深海、颗粒物大量存在)下的性能可能下降。
  • 未来方向: 作者计划探索自适应先验学习,结合深度或偏振线索,并将双域框架扩展到具有时间一致性约束的视频序列中。

Hero‑Mamba 证明,将高效的状态空间模型与巧妙的双域输入相结合,最终可以为开发者提供一个实用的、高性能的水下图像增强工具。

作者

  • Tejeswar Pokuri
  • Shivarth Rai

论文信息

  • arXiv ID: 2604.16266v1
  • 类别: cs.CV
  • 出版时间: 2026年4月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »