[Paper] 고충실도 텍스트 인식 이미지 복원을 위한 Unified Diffusion Transformer

발행: (2025년 12월 10일 오전 03:56 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.08922v1

Overview

이 논문은 UniT라는 통합 프레임워크를 소개한다. UniT는 diffusion 기반 이미지 생성, 비전‑언어 이해, OCR‑스타일 텍스트 스포팅을 결합하여 텍스트 내용이 손상된 이미지(예: 흐릿함, 저해상도, 노이즈가 섞인 스캔)를 복원한다. 손상된 이미지에 명시적인 언어적 단서를 diffusion 디노이징 루프에 다시 입력함으로써, 일반적인 diffusion 복원기에서 흔히 발생하는 “텍스트 환각” 문제를 크게 감소시키고, 출력 이미지에 선명하고 읽을 수 있는 텍스트를 제공한다.

Key Contributions

  • Unified Diffusion Transformer (DiT) + Vision‑Language Model (VLM) + Text Spotting Module (TSM): 각 구성 요소가 반복적인 디노이징 과정에서 서로에게 정보를 제공하는 긴밀히 결합된 파이프라인.
  • Explicit textual guidance: VLM이 손상된 입력으로부터 의미 있는 텍스트를 추출하고 이를 diffusion 과정의 조건 신호로 삽입한다.
  • Iterative OCR feedback: TSM이 매 디노이징 단계마다 diffusion 특징으로부터 중간 OCR 결과를 예측하여, VLM이 실시간으로 가이던스를 정제할 수 있게 한다.
  • State‑of‑the‑art performance: SA‑Text와 Real‑Text 벤치마크에서 UniT는 텍스트 인식 기반 이미지 복원 분야에서 가장 높은 end‑to‑end F1 점수를 달성했으며, 환각된 문자도 크게 감소시켰다.
  • Generalizable architecture: 설계가 다른 diffusion 백본이나 언어 모델로 교체 가능하도록 구성되어, 텍스트 중심 복원 작업에 재사용 가능한 블록이 된다.

Methodology

  1. Input & Degradation

    • 시스템은 텍스트 영역을 포함한 저품질 이미지(예: 압축, 블러, 부분 가림)를 입력으로 받는다.
  2. Diffusion Transformer (DiT)

    • 이미지의 노이즈가 섞인 잠재 표현을 점진적으로 디노이징하는 잠재 공간 diffusion 모델.
    • 일반적인 diffusion과 달리 DiT는 conditioning tokens을 받아 픽셀 통계 외의 추가 정보를 활용한다.
  3. Vision‑Language Model (VLM)

    • 사전 학습된 멀티모달 인코더(예: CLIP 또는 BLIP)로 현재 노이즈가 섞인 이미지 추정치를 처리하고, 보이는 문자들을 설명하는 textual embedding을 추출한다.
    • 이 임베딩은 guidance tokens 집합으로 변환되어 매 단계마다 diffusion transformer 입력에 연결된다.
  4. Text Spotting Module (TSM)

    • diffusion 특징 맵 위에 학습된 경량 OCR 헤드.
    • 각 디노이징 반복마다 중간 전사(문자 수준 또는 단어 수준)를 예측한다.
  5. Iterative Loop

    • Step k:

      1. DiT가 약간 덜 노이즈가 섞인 잠재를 생성한다.
      2. VLM이 해당 잠재를 읽고 텍스트 임베딩을 출력한다.
      3. TSM이 같은 잠재를 읽고 임시 OCR 문자열을 출력한다.
      4. OCR 문자열을 토크나이즈하여 VLM에 다시 입력함으로써 텍스트 임베딩을 정제한다.
      5. 정제된 임베딩이 다음 디노이징 단계를 위해 DiT에 주입된다.
    • 이 폐쇄 루프는 diffusion 과정이 수렴할 때까지 지속되며, 최종적으로 텍스트가 원본 내용과 일치하는 고품질 이미지를 생성한다.

Results & Findings

DatasetMetric (F1)Hallucination Rate ↓Visual Quality (PSNR/SSIM)
SA‑Text (synthetic)0.92 (↑ +7.4% vs. prior SOTA)0.03 (↓ 45%)31.8 dB / 0.94
Real‑Text (real‑world scans)0.88 (↑ +6.1%)0.05 (↓ 38%)29.5 dB / 0.91
  • Text fidelity: OCR 기반 F1 점수가 diffusion‑only 베이스라인에 비해 UniT가 정확한 문자를 훨씬 더 신뢰성 있게 복원함을 보여준다.
  • Hallucination suppression: 명시적인 텍스트 조건을 사용함으로써 모델이 원본에 존재하지 않았던 문자를 만들어 내는 현상을 방지한다.
  • Ablation: TSM 피드백 루프를 제거하면 F1이 약 4점 감소하여, 반복 OCR 가이드의 중요성을 확인한다.

Practical Implications

  • Document digitization pipelines: 레거시 문서를 스캔하는 기업은 UniT를 기존 OCR 워크플로에 연결해 노이즈가 많거나 저해상도 스캔에서도 인식 정확도를 크게 향상시킬 수 있다(수동 재주석 필요 없음).
  • Augmented reality (AR) overlays: 카메라 피드에서 실시간으로 흐릿한 표지판 등을 복원해 번역이나 접근성 앱의 가독성을 높일 수 있다.
  • Content moderation & forensic analysis: 이미지에 가려진 텍스트(워터마크, 흐릿한 번호판 등)를 복원해 자동 분석에 활용하면서 증거 무결성을 유지한다.
  • Developer‑friendly integration: UniT 구성 요소가 모듈식이므로(DiT, VLM, TSM) 개발자는 선호하는 모델(예: Stable Diffusion, OpenAI CLIP)로 교체해도 반복 가이드 메커니즘의 혜택을 그대로 누릴 수 있다.

Limitations & Future Work

  • Computation cost: 다중 조건 패스와 OCR 피드백을 포함한 diffusion 모델은 GPU 자원을 많이 소모한다; 실시간 적용을 위해서는 모델 증류나 프루닝이 필요할 수 있다.
  • Language coverage: 현재 VLM과 TSM은 주로 영어 텍스트에 대해 학습되었으며, 다국어 혹은 손글씨 스크립트로 확장하려면 추가 데이터와 토크나이저가 필요하다.
  • Robustness to extreme degradation: 입력 이미지가 심하게 손상된 경우(예: 70 % 이상 픽셀 손실) VLM이 신뢰할 만한 텍스트 단서를 추출하기 어려워 복원 품질이 제한된다.
  • Future directions: 저경량 diffusion 대안 탐색, 대규모 언어 모델을 통합해 풍부한 의미 가이드 제공, 텍스트의 시간적 일관성이 중요한 비디오 프레임 복원으로 확장하는 방안 등을 제시한다.

Authors

  • Jin Hyeon Kim
  • Paul Hyunbin Cho
  • Claire Kim
  • Jaewon Min
  • Jaeeun Lee
  • Jihye Park
  • Yeji Choi
  • Seungryong Kim

Paper Information

  • arXiv ID: 2512.08922v1
  • Categories: cs.CV
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »