[Paper] AQUA-Net: 적응형 주파수 융합 및 조명 인식 네트워크를 이용한 수중 이미지 향상

발행: (2025년 12월 6일 오전 03:56 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.05960v1

개요

이 논문은 수중 사진에서 흔히 발생하는 색상 편향, 저대비, 안개 현상을 동시에 해결하는 경량 딥러닝 아키텍처 AQUA‑Net을 소개한다. 공간 특징을 주파수 영역 단서와 조명 인식 디코더와 결합함으로써, 파라미터 수를 낮게 유지하면서도 실시간 임베디드 플랫폼에 배치 가능한 고품질 향상을 제공한다.

주요 기여

  • Adaptive Frequency Fusion Encoder – 푸리에 도메인에서 보완적인 텍스처 세부 정보를 추출하고 이를 공간 특징 스트림에 주입한다.
  • Illumination‑Aware Decoder – 픽셀 단위 조명 맵을 학습(Retinex 이론 영감)하여 적응형 노출 보정 및 반사광과 조명 효과를 분리한다.
  • Dual‑branch Residual Encoder‑Decoder – 주파수와 조명 경로를 하나의 잔차 프레임워크로 결합해 모델 크기를 크게 늘리지 않으면서 미세 구조를 보존한다.
  • 새로운 고해상도 수중 비디오 데이터셋 – 지중해에서 수집했으며 다양한 깊이, 탁도, 조명 조건을 포함해 강인한 벤치마크를 제공한다.
  • 더 적은 파라미터로 최첨단 성능 – 기존 방법과 동등하거나 이를 능가하면서 메모리와 연산량을 크게 줄인다.

방법론

AQUA‑Net은 고전적인 인코더‑디코더 백본을 기반으로 두 개의 보조 브랜치를 추가한다.

  1. Frequency Fusion Encoder

    • 입력 이미지를 빠른 푸리에 변환(FFT)으로 변환한다.
    • 저주파 크기와 고주파 위상 성분을 얕은 컨볼루션 블록을 통해 처리한다.
    • 이 주파수 특징을 업샘플링하여 공간 인코더의 잠재 표현과 연결(concatenate)함으로써, 수중 산란으로 손실되기 쉬운 텍스처와 에지 정보를 풍부하게 제공한다.
  2. Illumination‑Aware Decoder

    • 인코더의 계층 구조를 거울처럼 반영하고, 향상된 반사광 **R(x, y)**와 함께 조명 맵 **L(x, y)**를 예측한다.
    • 최종 출력은 Enhanced = R ⊙ L (요소별 곱)으로 계산되어, 네트워크가 지역적으로 노출을 조정하도록 한다—이는 인간 시각이 수중에서 불균일한 조명에 적응하는 방식과 동일하다.
    • 인코더와 디코더 사이의 잔차 연결은 구조적 세부 정보를 보존하는 데 도움을 준다.

두 브랜치는 다음과 같은 복합 손실 함수로 공동 학습된다.

  • 향상된 이미지에 대한 L1 재구성 손실
  • 고수준 의미를 유지하기 위한 Perceptual loss (VGG 기반)
  • 출력의 푸리에 스펙트럼이 깨끗한 레퍼런스 이미지와 일치하도록 하는 Frequency consistency loss

결과 및 분석

데이터셋PSNR ↑SSIM ↑파라미터 (M)
UIEB (test)28.70.921.9
RUIE27.40.891.9
New Mediterranean Video Set29.10.941.9
  • AQUA‑Net은 무거운 SOTA 모델(예: UWCNN, WaterNet)과 동등하거나 약간의 향상을 보이며 파라미터를 약 40 % 감소시킨다.
  • Ablation 연구에서 주파수 브랜치를 제거하면 PSNR이 약 1.2 dB 감소하고, 조명 브랜치를 제거하면 SSIM이 약 0.03 감소함을 확인했으며, 이는 두 브랜치가 상호 보완적인 역할을 함을 증명한다.
  • 정성적 시각 비교에서는 산호 텍스처가 더 선명해지고 색 균형이 자연스러우며, 특히 전통적인 방법이 어려워하는 심해 프레임에서 안개가 크게 감소한다.

실용적 함의

  • 실시간 수중 로보틱스 – 저용량 모델이 NVIDIA Jetson이나 ARM 기반 비전 프로세서에서 실행 가능해, 자율 수중 차량(AUV) 및 원격 조작 차량(ROV)의 온보드 이미지 향상을 가능하게 한다.
  • 해양 모니터링 및 검사 – 선명한 이미지가 객체 탐지, 분할, 종 분류와 같은 후속 컴퓨터 비전 작업의 정확도를 높여 색 왜곡으로 인한 오탐을 감소시킨다.
  • 소비자 수중 사진 – 모바일 앱에 AQUA‑Net을 통합하면 배터리를 크게 소모하거나 클라우드 처리를 필요로 하지 않고 즉시 촬영 후 보정이 가능하다.
  • 데이터셋 생성 – 주파수‑융합 접근법을 활용해 현실적인 수중 열화를 합성함으로써 다른 비전 모델 학습용 데이터를 빠르게 만들 수 있어, 해당 분야 연구를 가속화한다.

제한점 및 향후 연구

  • 현재 모델은 프레임당 하나의 조명 맵만을 가정하므로, 움직이는 광원 등 급격히 변하는 조명 상황에서는 여전히 아티팩트가 발생할 수 있다.
  • 파라미터 수는 적지만, 초저전력 마이크로컨트롤러(예: 8‑bit MCU)에서의 추론 속도는 아직 벤치마크되지 않았다.
  • 저자들은 비쌍(pair)되지 않은 수중 영상에 대한 자체 지도 학습을 탐색하고, 주파수 브랜치를 다중 스케일 웨이블릿 표현으로 확장해 더욱 미세한 텍스처 복원을 목표로 할 계획이다.

저자

  • Munsif Ali
  • Najmul Hassan
  • Lucia Ventura
  • Davide Di Bari
  • Simonepietro Canese

논문 정보

  • arXiv ID: 2512.05960v1
  • 분류: cs.CV, cs.AI
  • 발표일: 2025년 12월 5일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »