[Paper] 중세 역사 문서 전사에 대한 딥러닝 접근법의 적용
발행: (2025년 12월 22일 오전 04:43 GMT+9)
7 min read
원문: arXiv
Source: arXiv - 2512.18865v1
개요
이 논문은 중세 원고(9~11세기)의 라틴어 손필기 텍스트를 자동으로 전사할 수 있는 딥러닝 파이프라인을 소개합니다. 초기 중세 서체의 특성을 고려하여 현대 OCR/HTR 기술을 맞춤 적용함으로써, 저자들은 대규모 역사 기록 디지털화가 실현 가능한 수준의 정확도를 달성했습니다.
주요 기여
- 도메인 인식 데이터셋 생성 – 중세 라틴 필사본 이미지의 선 및 단어 수준 주석이 포함된 선별된 컬렉션과 철저한 탐색적 데이터 분석을 제공.
- 엔드‑투‑엔드 전사 파이프라인 – 객체 탐지(텍스트 블록 위치 지정), 단어 수준 인식을 위한 분류 모델, 그리고 어휘 외 글리프 처리를 위한 학습된 임베딩 공간을 결합.
- 종합 평가 – 재현율, 정밀도, F1, IoU, 혼동 행렬, 평균 문자열 거리 등을 보고하여 스크립트 변형에 따른 성능을 투명하게 제시.
- 오픈소스 구현 – 전체 코드, 학습된 모델, 데이터 전처리 스크립트를 GitHub에 공개하여 재현성과 커뮤니티 확장을 가능하게 함.
Methodology
-
Data Preparation
- 스캔된 원고 페이지는 전처리(이진화, 기울기 보정)를 거칩니다.
- 수동 주석을 통해 개별 단어와 줄에 대한 경계 상자를 정의합니다.
- 증강(무작위 회전, 탄성 왜곡)을 통해 잉크, 양피지, 필경 스타일의 변동성을 모방합니다.
-
Object Detection
- 경량 CNN 기반 탐지기(예: Faster R‑CNN)가 각 페이지를 스캔하여 단어 크기의 영역을 찾습니다.
- 탐지된 상자는 Intersection‑over‑Union (IoU) 임계값으로 필터링되어 false positive를 감소시킵니다.
-
Word Recognition
- 탐지된 단어 이미지는 분류 네트워크(ResNet‑based)로 전달되어 라틴어 어근 고정 어휘에 매핑됩니다.
- 어휘 외 단어 또는 모호한 글리프에 대해서는 word‑embedding 분기가 연속 표현을 학습하여 유사도 기반 디코딩을 가능하게 합니다.
-
Post‑Processing
- 중세 라틴어 코퍼스(문자 수준 LSTM)로 학습된 언어 모델이 원시 예측을 정제하고, 가능성이 낮은 시퀀스를 수정합니다.
-
Evaluation
- 평가 지표는 탐지 단계(IoU, precision/recall)와 전사 단계(F1, mean string distance) 모두에서 계산됩니다.
결과 및 발견
| 측정항목 | 값 |
|---|---|
| Detection Precision | 0.92 |
| Detection Recall | 0.88 |
| Word‑level F1 Score | 0.84 |
| Mean String Distance (Levenshtein) | 1.7 characters |
| IoU (average) | 0.78 |
- 탐지기는 불규칙한 간격과 잉크 번짐에도 불구하고 단어를 안정적으로 분리합니다.
- 임베딩 폴백 덕분에 희귀 합자 문자에 대해서도 분류 정확도가 높게 유지됩니다.
- 언어 모델 후처리를 통해 평균 편집 거리가 약 30 % 감소했으며, 이는 문맥 제약의 가치를 입증합니다.
Practical Implications
- Mass Digitisation – 아카이브는 최소한의 인간 감독으로 수천 페이지를 처리할 수 있어, 검색 가능한 코퍼스를 만드는 시간과 비용을 크게 줄입니다.
- Digital Humanities Tools – 연구자들은 전사된 텍스트에 거의 실시간으로 접근할 수 있어, 이전에는 실현하기 어려웠던 대규모 언어학, 고문서학, 문화 분석을 가능하게 합니다.
- Cross‑Domain Transfer – 모듈식 파이프라인(디텍터 + 분류기 + 임베딩)은 적은 양의 데이터만으로도 다른 저자원 역사 스크립트(예: 초기 키릴 문자, 아랍어)로 재학습될 수 있습니다.
- Integration with Existing Platforms – 오픈소스 코드를 마이크로서비스(REST API) 형태로 래핑하여 문서 관리 시스템, 도서관 카탈로그, 혹은 Zooniverse와 같은 크라우드소싱 플랫폼에 연결할 수 있습니다.
제한 사항 및 향후 작업
- Vocabulary Coverage – 분류기는 미리 정의된 라틴어 레마 목록에 의존합니다; 희귀하거나 손상된 단어는 여전히 임베딩 경로로 되돌아가며, 이는 낮은 신뢰도를 초래합니다.
- Script Diversity – 실험은 9~11세기 라틴 스크립트에 제한됩니다; 더 복잡한 약어가 있는 후기 중세 스크립트는 추가 모델 용량이 필요할 수 있습니다.
- Ground‑Truth Scarcity – 수동 주석은 노동 집약적이며; 반지도 학습 또는 능동 학습 전략은 라벨링 부담을 더욱 줄일 수 있습니다.
- Real‑World Deployment – 현재 평가는 비교적 깨끗한 스캔을 사용합니다; 저해상도 사진이나 심하게 손상된 페이지에 대한 견고성은 아직 미해결 과제입니다.
저자들의 GitHub 저장소는 전체 파이프라인, 학습된 가중치 및 새로운 필사본 컬렉션으로 시스템을 확장하기 위한 지침을 제공합니다.
저자
- Maksym Voloshchuk
- Bohdana Zarembovska
- Mykola Kozlenko
논문 정보
- arXiv ID: 2512.18865v1
- 카테고리: cs.CV, cs.CL, cs.LG
- 발행일: December 21, 2025
- PDF: PDF 다운로드