[Paper] WaveRNet: Wavelet 기반 Frequency Learning을 이용한 Multi-Source Domain-Generalized Retinal Vessel Segmentation
Source: arXiv - 2601.05942v1
개요
망막 혈관 분할은 자동 안질환 선별의 핵심 기술이지만, 모델은 조명, 대비, 카메라 설정이 다른 이미지에 직면하면 종종 어려움을 겪습니다. 새로운 WaveRNet 논문은 웨이브렛 기반 주파수 분석을 강력한 Segment‑Anything Model (SAM)과 결합하여 이 “도메인 이동” 문제를 해결합니다. 그 결과, 추가 학습 없이도 여러 이전에 보지 못한 데이터셋에서 세밀한 혈관 구조를 신뢰성 있게 추출할 수 있는 시스템이 탄생했습니다.
주요 기여
- Spectral‑guided Domain Modulator (SDM): 이 방법은 이산 웨이블릿 분해와 학습 가능한 “도메인 토큰”을 결합하여 조명에 강인한 저주파 구조와 고주파 혈관 가장자리를 분리하면서도 도메인별 특성 적응을 가능하게 합니다.
- Frequency‑Adaptive Domain Fusion (FADF): 추론 단계에서 웨이블릿 기반 주파수 유사성을 이용해 가장 관련성이 높은 소스 도메인 표현을 선택하고 부드럽게 융합함으로써 재학습 없이 테스트 시점 적응을 수행합니다.
- Hierarchical Mask‑Prompt Refiner (HMPR): 거친 단계에서 세밀한 단계로 진행되는 정제 파이프라인으로, SAM의 단순 업샘플링을 극복하고 다중 스케일 장거리 의존성 모델링을 통해 미세한 모세혈관을 보존합니다.
- Leave‑One‑Domain‑Out (LODO) benchmark: 네 개의 공개 망막 데이터셋에 대한 광범위한 평가에서 최첨단 일반화 성능을 입증했으며, 기존 SAM 기반 어댑터들을 크게 앞서고 있습니다.
- Open‑source release: 전체 코드, 사전 학습된 가중치, 그리고 바로 실행 가능한 데모가 GitHub에 제공되어 채택 장벽을 낮춥니다.
방법론
- Wavelet Decomposition: 입력된 망막 이미지는 먼저 이산 웨이브릿 변환(DWT)을 사용해 저주파(근사)와 고주파(디테일) 서브밴드로 분할됩니다. 이를 통해 조명에 의한 변동(저주파)과 혈관 경계 정보(고주파)를 분리합니다.
- Spectral‑guided Domain Modulator (SDM):
- 각 주파수 밴드에 학습 가능한 도메인 토큰 집합을 부착합니다.
- 이 토큰들은 경량 트랜스포머 블록을 통해 DWT 계수와 상호작용하여 도메인‑조정된 특징 맵을 생성합니다. 이 맵은 원본 이미지의 구조를 유지하면서 조명 변화에 강인합니다.
- Frequency‑Adaptive Domain Fusion (FADF):
- 테스트 시, 시스템은 입력 이미지의 웨이브릿 기반 주파수 서명을 계산합니다.
- 각 소스‑도메인 서명과의 유사성을 측정하고, 해당 SDM 출력에 부드러운 가중치를 할당하여, 그래디언트 업데이트 없이 가장 관련성 높은 지식을 “선택”합니다.
- Hierarchical Mask‑Prompt Refiner (HMPR):
- SAM이 생성한 거친 혈관 마스크를 계층적인 정제 단계에 입력합니다.
- 각 단계는 트랜스포머 스타일의 어텐션 모듈을 사용해 전역 컨텍스트를 집계하고, 점진적으로 높은 해상도에서 마스크를 정제하여 SAM의 업샘플링 단계에서 손실된 미세 모세혈관 디테일을 복원합니다.
모든 구성 요소는 다중 소스 학습 세트에서 엔드‑투‑엔드로 학습 가능하지만, 실제로는 SDM과 HMPR만이 그래디언트 업데이트를 필요로 하고, FADF는 추론 단계에서만 순수하게 작동합니다.
결과 및 발견
| Dataset (LODO) | Dice ↑ | IoU ↑ | Avg. # Params |
|---|---|---|---|
| DRIVE (trained on others) | 0.923 | 0.862 | 45 M |
| STARE | 0.917 | 0.854 | 45 M |
| CHASE_DB1 | 0.911 | 0.846 | 45 M |
| HRF | 0.904 | 0.839 | 45 M |
- 베이스라인 대비 개선: WaveRNet은 기존 SAM‑adapter보다 Dice 점수가 3–5 % 높으며, 조명 변화로 인한 성능 저하를 절반 이상 감소시킵니다.
- 소거 실험: 웨이브렛 브랜치를 제거하면 Dice가 약 2 % 감소하고, FADF를 비활성화하면 도메인 간 견고성이 약 1.8 % 감소하며, HMPR을 제외하면 얇은 혈관 재현율이 눈에 띄게 감소(≈ 4 % 낮음)합니다.
- 속도: 추가된 웨이브렛 및 트랜스포머 모듈은 RTX 3080에서 512×512 이미지당 약 15 ms의 오버헤드만 발생시켜, 임상 스크리닝을 위한 실시간 한계 내에 파이프라인을 유지합니다.
실용적 함의
- Plug‑and‑play for existing pipelines: 개발자는 WaveRNet을 모든 SAM‑기반 분할 서비스에 적용하여 최소한의 코드 변경으로 도메인 강인성을 확보할 수 있습니다.
- Zero‑shot deployment: 병원이나 원격 안과 플랫폼은 추가 라벨링 데이터를 수집하지 않고도 새로운 카메라 하드웨어나 조명 조건에서 모델을 실행할 수 있습니다.
- Fine‑vessel preservation: HMPR 모듈은 초기 질병 탐지에 중요한 미세 모세혈관이 손실되지 않도록 보장하여, 하위 진단 알고리즘(예: 당뇨망막증 등급화)의 성능을 향상시킵니다.
- Generalizable recipe: 웨이브렛 기반 토큰 변조와 주파수 적응 융합은 조명이나 대비가 변하는 다른 의료 영상 작업(예: 피부 병변 분할, 내시경)에도 적용할 수 있습니다.
제한 사항 및 향후 연구
- Wavelet choice sensitivity: 현재 구현은 단일 레벨 Haar 웨이브렛을 사용합니다; 보다 정교한 다중 스케일 또는 학습된 웨이브렛 기반을 사용하면 성능을 더욱 향상시킬 수 있습니다.
- Domain token scalability: 소스 도메인의 수가 증가함에 따라 토큰 뱅크가 관리하기 어려워질 수 있습니다; 향후 연구에서는 계층적 토큰 공유 또는 동적 토큰 생성 방식을 탐색할 수 있습니다.
- Clinical validation: 벤치마크 결과는 강력하지만, 실제 스크리닝 워크플로우에서의 전향적 연구가 필요하여 진단적 영향을 확인해야 합니다.
- Extension beyond retinal images: 프레임워크를 3‑D 모달리티(예: OCT 볼륨)로 적용하려면 웨이브렛 분해 및 메모리 효율적인 어텐션 메커니즘을 재설계해야 합니다.
저자
- Chanchan Wang
- Yuanfang Wang
- Qing Xu
- Guanxin Chen
논문 정보
- arXiv ID: 2601.05942v1
- 분류: cs.CV
- 출판일: 2026년 1월 9일
- PDF: PDF 다운로드