[Paper] GlotOCR Bench: OCR 모델은 소수의 Unicode 스크립트 이상에서 여전히 어려움을 겪는다
Source: arXiv - 2604.12978v1
개요
이 논문 **“GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts”**은 현대 OCR 시스템이 100개가 넘는 다양한 문자 체계를 얼마나 잘 처리하는지 테스트하는 새로운 대규모 벤치마크를 소개한다. 실제 다국어 텍스트를 깨끗한 이미지와 손상된 이미지로 렌더링함으로써, 저자들은 뚜렷한 격차를 드러낸다: 최첨단 비전‑언어 모델조차도 신뢰할 수 있게 인식하는 스크립트는 수십 개에 불과하며, 많은 경우 나머지 스크립트에서는 완전히 실패한다.
주요 기여
- GlotOCR Bench 데이터셋 – 100개가 넘는 Unicode 스크립트, 각각 여러 글꼴(Google Fonts)로 렌더링되고, HarfBuzz를 통해 좌‑우 및 우‑좌 형태를 적용한 뒤 FreeType으로 래스터화. 깨끗한 버전과 인위적으로 손상된 버전을 모두 포함.
- 엄격한 검증 파이프라인 – 수동 검사를 통해 모든 스크립트가 올바르게 렌더링되었는지 확인하여, 재현성을 위한 벤치마크의 신뢰성을 보장.
- 포괄적인 평가 – 오픈‑웨이트 모델(예: TrOCR, Donut)과 상용 비전‑언어 OCR 모델(예: Google Cloud Vision, Azure OCR) 등 다양한 모델을 테스트.
- 실증적 인사이트 – OCR 성능이 시각적 특징 학습뿐 아니라 스크립트 수준 사전 학습 데이터 양과 강하게 상관관계가 있음을 보여줌.
- 오픈소스 공개 – 벤치마크 데이터셋과 렌더링 파이프라인 모두 공개(GitHub + Hugging Face)되어 커뮤니티가 테스트 스위트를 확장하거나 적용할 수 있음.
방법론
- 텍스트 소스 선택 – 다국어 코퍼스를 샘플링하여 각 유니코드 스크립트에 대한 대표 문장을 얻음.
- 렌더링 파이프라인 – 각 문장은 HarfBuzz(복잡한 스크립트, 합자, RTL 방향 처리)로 형태를 만들고, Google Fonts에서 무작위 폰트를 사용해 FreeType으로 래스터화하여 고품질 PNG를 생성함.
- 열화 시뮬레이션 – 가우시안 블러, 노이즈, 압축 아티팩트, 원근 왜곡을 적용해 실제 스캔이나 카메라 촬영을 모방한 “노이즈” 변형을 만듦.
- 수동 검증 – 소규모 팀이 각 스크립트에서 층화된 샘플을 검사하여 글리프가 올바르게 렌더링되고 방향성이 정확한지 확인함.
- 모델 평가 – OCR 출력물을 정확히 일치하는지와 문자 수준 편집 거리를 사용해 실제 유니코드 문자열과 비교함. 스크립트는 모델이 사전 학습한 데이터 양에 따라 그룹화됨(예: 라틴어 vs. N’Ko).
파이프라인은 의도적으로 모듈식으로 설계되어, 개발자가 새로운 폰트, 열화 유형 또는 OCR 엔진을 최소한의 노력으로 플러그인할 수 있음.
결과 및 발견
| 측정항목 | 최고 오픈‑웨이트 모델 | 최고 독점 모델 |
|---|---|---|
| 정확히 일치하는 스크립트 >90% | 12 | 18 |
| 정확히 일치하는 스크립트 >50% | 28 | 33 |
| 정확히 일치하는 스크립트 <10% | 57 | 49 |
- Coverage ceiling – 가장 강력한 모델조차도 100개 이상의 스크립트 중 30개 미만만 정확히 인식합니다.
- Pre‑training matters – 모델의 언어 모델 사전 학습 코퍼스에 자주 등장하는 스크립트(예: 라틴어, 키릴 문자, 아라비아어)는 훨씬 높은 점수를 얻습니다.
- Failure modes – 보지 못한 스크립트를 마주하면 모델은 잡음이 섞인 출력이나 자신이 아는 스크립트의 문자를 “환각”합니다(예: 데바나가리를 벵골어와 혼동).
- Degradation impact – 손상된 이미지 세트에서 정확도가 전체적으로 약 15–20% 감소하며, 시각적 노이즈가 스크립트 일반화 문제를 악화시킴을 보여줍니다.
Practical Implications
- Product road‑maps – OCR SaaS를 구축하는 기업은 시각적 특징 개선에만 의존하기보다 사전 학습 파이프라인에서 스크립트 지원 범위를 확대하는 것을 우선시해야 합니다.
- Internationalization – 신흥 시장(예: 아프리카, 동남아시아)을 목표로 하는 앱은 기본 제공 OCR이 작동한다고 가정할 수 없으며, 저자원 스크립트에 대한 맞춤형 데이터 수집이 여전히 필요합니다.
- Testing & QA – GlotOCR Bench를 CI 파이프라인에 통합하여 OCR 모델을 업데이트할 때 스크립트 지원의 회귀를 감지할 수 있습니다.
- Hybrid approaches – 시각 인식기와 경량 스크립트 식별 모듈을 결합하면 입력을 스크립트별 미세 조정 모델로 라우팅하여 환각을 완화할 수 있습니다.
- Open‑source tooling – 렌더링 파이프라인을 재활용하여 대표성이 낮은 스크립트에 대한 합성 학습 데이터를 생성함으로써 데이터 중심 개발을 가속화할 수 있습니다.
제한 사항 및 향후 작업
- Synthetic vs. real data – 벤치마크는 실제 환경의 노이즈를 모방하지만, 여전히 합성된 열화에 의존합니다; 실제 스캔 문서에서의 성능은 다를 수 있습니다.
- Script granularity – 일부 스크립트는 글리프를 공유(예: 라틴 파생 알파벳)하고 구분되지 않아, 밀접하게 관련된 스크립트에 대한 점수가 부풀려질 수 있습니다.
- Model scope – 이 연구는 비전‑언어 모델에 초점을 맞추며, 고전적인 OCR 파이프라인(예: 언어 팩이 포함된 Tesseract)은 평가되지 않았습니다.
- Future directions – 저자들은 손글씨 샘플을 포함해 벤치마크를 확장하고, 더 극심한 열화를 추가하며, 사전 학습 중 새로운 스크립트를 점진적으로 도입하는 커리큘럼 학습 전략을 탐구할 것을 제안합니다.
저자
- Amir Hossein Kargaran
- Nafiseh Nikeghbal
- Jana Diesner
- François Yvon
- Hinrich Schütze
논문 정보
- arXiv ID: 2604.12978v1
- 분류: cs.CL, cs.CV
- 출판일: 2026년 4월 14일
- PDF: Download PDF