[논문] GMBFormer: 초고해상도 영상에서 도시 녹지를 추출하기 위한 NDVI 기반 글로벌 메모리 뱅크 트랜스포머
개요
초고해상도(UHR) 영상에서 도시 녹지 공간을 추출하는 작업은 일반적으로 패치 단위로 수행되며, 이는 공간적으로 떨어져 있지만 시각적으로 유사한 식생 패턴 간의 의미 재사용을 제한한다. 정규화된 차이 식생 지수(NDVI)를 적녹청(RGB) 백본에 직접 주입하면 시각적 외관 학습과 물리적 식생 신뢰도 사이의 역할이 흐려질 수 있다. 우리는 인접성 기반 특징 전파를 선택적·유사성 기반 프로토타입 검색으로 대체한 SegFormer 기반 프레임워크인 GMBFormer를 제안한다. RGB 채널만이 백본과 디코더에 입력되고, NDVI는 물리 정보를 반영한 게이트로 분리되어 모멘텀 업데이트를 통해 고신뢰도 식생 기술자를 압축된 전역 메모리 뱅크에 허용한다. 학습 및 추론 과정에서 현재 패치는 메모리 매개 교차 주의(cross‑attention)를 통해 저장된 프로토타입을 조회하고, 검색된 응답은 제한된 오버헤드로 통합된다. 실험은 7,700개의 라벨이 지정된 512 × 512 패치를 포함한 자체 구축 청두 UHR 데이터셋과 공개 국제광학측량·원격탐사학회(ISPRS) Potsdam 데이터셋에서 파생된 두 가지 라벨 축소 설정을 사용한다. 동일한 학습·평가 프로토콜 하에서 GMBFormer는 각각 평균 교차 엔트로피(mIoU)/평균 Dice(mDice) 점수 89.25 %/94.31 %, 92.17 %/95.92 %, 83.72 %/90.86 %를 달성했으며, 모든 설정에서 기존 SegFormer‑B4 베이스라인보다 향상되었다. Ablation 연구를 통해 NDVI 분리 허용, 메모리 검색, 용량, 모멘텀 등이 최종 성능에 공동으로 영향을 미침을 확인하였다.
주요 기여
본 논문은 다음 분야의 연구를 제시한다.
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하시기 바란다.
실용적 함의
본 연구는 cs.CV 분야의 발전에 기여한다.
저자
- Hao Lei
- Xi Cheng
- Chenlu Shu
- Zhiheng Chen
- Zhengjie Duan
- Haoyu Wang
- Zhanfeng Shen
논문 정보
- arXiv ID: 2606.06363v1
- 분류: cs.CV
- 발표일: 2026년 6월 4일
- PDF: PDF 다운로드