[Paper] 고충실도 텍스트 인식 이미지 복원을 위한 Unified Diffusion Transformer
Source: arXiv - 2512.08922v1
Overview
이 논문은 UniT라는 통합 프레임워크를 소개한다. UniT는 diffusion 기반 이미지 생성, 비전‑언어 이해, OCR‑스타일 텍스트 스포팅을 결합하여 텍스트 내용이 손상된 이미지(예: 흐릿함, 저해상도, 노이즈가 섞인 스캔)를 복원한다. 손상된 이미지에 명시적인 언어적 단서를 diffusion 디노이징 루프에 다시 입력함으로써, 일반적인 diffusion 복원기에서 흔히 발생하는 “텍스트 환각” 문제를 크게 감소시키고, 출력 이미지에 선명하고 읽을 수 있는 텍스트를 제공한다.
Key Contributions
- Unified Diffusion Transformer (DiT) + Vision‑Language Model (VLM) + Text Spotting Module (TSM): 각 구성 요소가 반복적인 디노이징 과정에서 서로에게 정보를 제공하는 긴밀히 결합된 파이프라인.
- Explicit textual guidance: VLM이 손상된 입력으로부터 의미 있는 텍스트를 추출하고 이를 diffusion 과정의 조건 신호로 삽입한다.
- Iterative OCR feedback: TSM이 매 디노이징 단계마다 diffusion 특징으로부터 중간 OCR 결과를 예측하여, VLM이 실시간으로 가이던스를 정제할 수 있게 한다.
- State‑of‑the‑art performance: SA‑Text와 Real‑Text 벤치마크에서 UniT는 텍스트 인식 기반 이미지 복원 분야에서 가장 높은 end‑to‑end F1 점수를 달성했으며, 환각된 문자도 크게 감소시켰다.
- Generalizable architecture: 설계가 다른 diffusion 백본이나 언어 모델로 교체 가능하도록 구성되어, 텍스트 중심 복원 작업에 재사용 가능한 블록이 된다.
Methodology
-
Input & Degradation
- 시스템은 텍스트 영역을 포함한 저품질 이미지(예: 압축, 블러, 부분 가림)를 입력으로 받는다.
-
Diffusion Transformer (DiT)
- 이미지의 노이즈가 섞인 잠재 표현을 점진적으로 디노이징하는 잠재 공간 diffusion 모델.
- 일반적인 diffusion과 달리 DiT는 conditioning tokens을 받아 픽셀 통계 외의 추가 정보를 활용한다.
-
Vision‑Language Model (VLM)
- 사전 학습된 멀티모달 인코더(예: CLIP 또는 BLIP)로 현재 노이즈가 섞인 이미지 추정치를 처리하고, 보이는 문자들을 설명하는 textual embedding을 추출한다.
- 이 임베딩은 guidance tokens 집합으로 변환되어 매 단계마다 diffusion transformer 입력에 연결된다.
-
Text Spotting Module (TSM)
- diffusion 특징 맵 위에 학습된 경량 OCR 헤드.
- 각 디노이징 반복마다 중간 전사(문자 수준 또는 단어 수준)를 예측한다.
-
Iterative Loop
-
Step k:
- DiT가 약간 덜 노이즈가 섞인 잠재를 생성한다.
- VLM이 해당 잠재를 읽고 텍스트 임베딩을 출력한다.
- TSM이 같은 잠재를 읽고 임시 OCR 문자열을 출력한다.
- OCR 문자열을 토크나이즈하여 VLM에 다시 입력함으로써 텍스트 임베딩을 정제한다.
- 정제된 임베딩이 다음 디노이징 단계를 위해 DiT에 주입된다.
-
이 폐쇄 루프는 diffusion 과정이 수렴할 때까지 지속되며, 최종적으로 텍스트가 원본 내용과 일치하는 고품질 이미지를 생성한다.
-
Results & Findings
| Dataset | Metric (F1) | Hallucination Rate ↓ | Visual Quality (PSNR/SSIM) |
|---|---|---|---|
| SA‑Text (synthetic) | 0.92 (↑ +7.4% vs. prior SOTA) | 0.03 (↓ 45%) | 31.8 dB / 0.94 |
| Real‑Text (real‑world scans) | 0.88 (↑ +6.1%) | 0.05 (↓ 38%) | 29.5 dB / 0.91 |
- Text fidelity: OCR 기반 F1 점수가 diffusion‑only 베이스라인에 비해 UniT가 정확한 문자를 훨씬 더 신뢰성 있게 복원함을 보여준다.
- Hallucination suppression: 명시적인 텍스트 조건을 사용함으로써 모델이 원본에 존재하지 않았던 문자를 만들어 내는 현상을 방지한다.
- Ablation: TSM 피드백 루프를 제거하면 F1이 약 4점 감소하여, 반복 OCR 가이드의 중요성을 확인한다.
Practical Implications
- Document digitization pipelines: 레거시 문서를 스캔하는 기업은 UniT를 기존 OCR 워크플로에 연결해 노이즈가 많거나 저해상도 스캔에서도 인식 정확도를 크게 향상시킬 수 있다(수동 재주석 필요 없음).
- Augmented reality (AR) overlays: 카메라 피드에서 실시간으로 흐릿한 표지판 등을 복원해 번역이나 접근성 앱의 가독성을 높일 수 있다.
- Content moderation & forensic analysis: 이미지에 가려진 텍스트(워터마크, 흐릿한 번호판 등)를 복원해 자동 분석에 활용하면서 증거 무결성을 유지한다.
- Developer‑friendly integration: UniT 구성 요소가 모듈식이므로(DiT, VLM, TSM) 개발자는 선호하는 모델(예: Stable Diffusion, OpenAI CLIP)로 교체해도 반복 가이드 메커니즘의 혜택을 그대로 누릴 수 있다.
Limitations & Future Work
- Computation cost: 다중 조건 패스와 OCR 피드백을 포함한 diffusion 모델은 GPU 자원을 많이 소모한다; 실시간 적용을 위해서는 모델 증류나 프루닝이 필요할 수 있다.
- Language coverage: 현재 VLM과 TSM은 주로 영어 텍스트에 대해 학습되었으며, 다국어 혹은 손글씨 스크립트로 확장하려면 추가 데이터와 토크나이저가 필요하다.
- Robustness to extreme degradation: 입력 이미지가 심하게 손상된 경우(예: 70 % 이상 픽셀 손실) VLM이 신뢰할 만한 텍스트 단서를 추출하기 어려워 복원 품질이 제한된다.
- Future directions: 저경량 diffusion 대안 탐색, 대규모 언어 모델을 통합해 풍부한 의미 가이드 제공, 텍스트의 시간적 일관성이 중요한 비디오 프레임 복원으로 확장하는 방안 등을 제시한다.
Authors
- Jin Hyeon Kim
- Paul Hyunbin Cho
- Claire Kim
- Jaewon Min
- Jaeeun Lee
- Jihye Park
- Yeji Choi
- Seungryong Kim
Paper Information
- arXiv ID: 2512.08922v1
- Categories: cs.CV
- Published: December 9, 2025
- PDF: Download PDF