[Paper] MatteViT: 고주파 인식 문서 그림자 제거와 그림자 매트 가이드
Source: arXiv - 2512.08789v1
Overview
이 논문은 MatteViT라는 새로운 딥러닝 프레임워크를 소개한다. 이 프레임워크는 스캔하거나 사진으로 촬영한 문서에서 그림자를 제거하면서 텍스트와 선화의 선명함을 유지한다. 공간적 단서와 주파수 영역 처리를 결합함으로써 최첨단 결과를 달성하고, 이는 OCR 정확도 향상으로 이어져 깨끗한 디지털 문서에 의존하는 모든 워크플로에 이득이 된다.
Key Contributions
- Matte Vision Transformer (MatteViT): 공간 정보와 고주파 디테일을 동시에 활용하는 트랜스포머 기반 아키텍처로 그림자 제거를 수행한다.
- High‑Frequency Amplification Module (HFAM): 고주파 성분(에지, 스트로크)을 분리하고 적응적으로 강화하는 경량 플러그인으로, 재구성 전에 적용한다.
- Continuous luminance‑based shadow matte: 맞춤형 매트 데이터셋에서 생성된 연속적인 그림자 마스크로, 첫 번째 네트워크 레이어부터 정밀한 가이드를 제공한다.
- Comprehensive benchmark evaluation: RDD와 Kligler 그림자‑문서 데이터셋에서 새로운 최고 점수를 기록했으며, 다운스트림 OCR 성능도 눈에 띄게 향상된다.
Methodology
-
Input preprocessing – 원본 문서 이미지는 shadow matte generator에 입력되어 연속적인 매트(픽셀당 그림자 강도 맵)를 예측한다. 이 매트는 그림자가 가장 강한 위치를 알려주는 부드러운 “그림자 스텐실” 역할을 한다.
-
High‑frequency extraction – 간단한 웨이블릿‑유사 분해를 사용해 이미지를 저주파(전체 조명)와 고주파(에지, 미세 텍스트) 성분으로 나눈다.
-
HFAM – 고주파 브랜치는 High‑Frequency Amplification Module을 통과하며, 이 모듈은 픽셀별 스케일링 팩터를 학습해 그림자에 의해 흐려진 미세 에지를 선택적으로 강화한다.
-
Transformer backbone – 매트가 가이드하는 저주파 맵과 강화된 고주파 맵을 결합하여 Vision Transformer에 입력한다. 셀프‑어텐션 메커니즘을 통해 모델은 전역적인 조명 정보를 추론하면서도 지역 디테일을 보존한다.
-
Reconstruction – 트랜스포머는 정제된 저주파와 고주파 스트림을 재조합하여 그림자가 없는 이미지를 출력한다. 전체 파이프라인은 L1, 퍼셉추얼, 매트 일관성 손실을 결합한 형태로 엔드‑투‑엔드 학습이 가능하다.
Results & Findings
- Quantitative gains: MatteViT는 RDD 벤치마크에서 평균 절대 오차(MAE)를 약 12 % 감소시키고, 이전 최고 방법 대비 PSNR/SSIM을 각각 1.8 dB / 0.03 향상시킨다.
- OCR boost: 정제된 문서를 Tesseract와 최신 딥 OCR 모델에 입력했을 때, 문자 오류율이 가장 강력한 베이스라인 대비 각각 9 %와 7 % 감소한다.
- Ablation studies: HFAM이나 연속 매트를 제거하면 MAE가 약 5 % 악화되는 등 두 요소가 모두 성능에 필수적임을 확인한다.
- Speed: 추가된 HFAM은 RTX 3080 하나에서 512 × 512 이미지당 < 2 ms만큼만 지연을 증가시켜 전체 추론 시간을 50 ms 이하로 유지한다—실시간 스캔 앱에 충분히 빠른 속도다.
Practical Implications
- Document digitization pipelines – MatteViT를 통합하면 스캔된 아카이브, 법률 문서, 영수증 등의 품질이 크게 향상되어 수동 정리 작업이 감소한다.
- Mobile scanning apps – 경량 HFAM과 효율적인 트랜스포머 설계 덕분에 최신 스마트폰에서도 실행 가능해, 사용자에게 거의 즉시 그림자 제거 기능을 제공한다.
- Improved downstream AI – 더 깨끗한 입력은 OCR, 레이아웃 분석, 그리고 스캔된 텍스트를 활용하는 다운스트림 NLP 작업의 신뢰성을 높인다.
- Enterprise automation – 청구서 처리나 계약서 분석을 자동화하는 기업은 추출 정확도가 상승하고 오류 처리 비용이 감소할 것으로 기대할 수 있다.
Limitations & Future Work
- Dataset bias – 맞춤형 매트 데이터셋이 일반적인 사무실 조명에 초점을 맞추고 있어, 극단적인 야외 그림자나 고도로 텍스처가 있는 종이에서는 성능이 저하될 수 있다.
- Model size – 추론 속도는 빠르지만, 트랜스포머 백본은 여전히 약 120 MB의 GPU 메모리를 요구해 저사양 엣지 디바이스에서는 장벽이 될 수 있다.
- Future directions – 저자들은 모델을 축소하기 위한 지식 증류, 컬러 그림자를 처리하도록 매트 생성 확장, 그리고 연속적인 문서 캡처를 위한 비디오 스트림 적용 등을 탐구할 계획이라고 제안한다.
Authors
- Chaewon Kim
- Seoyeon Lee
- Jonghyuk Park
Paper Information
- arXiv ID: 2512.08789v1
- Categories: cs.CV, cs.AI
- Published: December 9, 2025
- PDF: Download PDF