[Paper] 深度学习方法在中世纪历史文献转录中的应用

发布: 3天前 (2025年12月22日 GMT+8 03:43)

6 min read

原文: arXiv

Source: arXiv - 2512.18865v1

请提供您希望翻译的具体文本内容（例如摘要、引言或其他段落），我将按照要求保留源链接并将文本翻译为简体中文。谢谢！

Overview

本文介绍了一条深度学习流水线，能够自动转录中世纪手稿（9 至 11 世纪）的拉丁手写文本。通过将现代 OCR/HTR 技术针对早期中世纪书写体的特殊性进行定制，作者实现了足以支撑大规模历史档案数字化的高准确度。

Domain‑aware dataset creation – 一个经过策划的中世纪拉丁手稿图像集合，包含行级和词级标注，并附有详尽的探索性数据分析。
End‑to‑end transcription pipeline – 结合对象检测（定位文本块）、用于词级识别的分类模型，以及用于处理词汇表外字形的学习嵌入空间。
Comprehensive evaluation – 报告召回率、精确率、F1、IoU、混淆矩阵和平均字符串距离，提供对不同书写体变体下性能的透明视图。
Open‑source implementation – 完整代码、已训练模型以及数据预处理脚本已在 GitHub 上发布，支持可复现性和社区扩展。

数据准备
- 扫描的手稿页面进行预处理（二值化、去倾斜）。
- 手动标注定义单词和行的边界框。
- 增强（随机旋转、弹性扭曲）模拟墨水、羊皮纸和书写者风格的变异。
目标检测
- 使用轻量级的基于 CNN 的检测器（例如 Faster R‑CNN）扫描每页，定位单词大小的区域。
- 通过交并比（IoU）阈值过滤检测框，以减少误报。
单词识别
- 将检测到的单词图像输入分类网络（基于 ResNet），映射到拉丁语词元的固定词汇表。
- 对于词表外或模糊的字形，使用词嵌入分支学习连续表示，允许基于相似度的解码。
后处理
- 使用在中世纪拉丁语语料上训练的语言模型（字符级 LSTM）对原始预测进行细化，纠正不太可能的序列。
评估
- 在检测层面（IoU、精确率/召回率）和转录层面（F1、平均字符串距离）计算指标。

Metric	Value
Detection Precision	0.92
Detection Recall	0.88
Word‑level F1 Score	0.84
Mean String Distance (Levenshtein)	1.7 characters
IoU (average)	0.78

作者的 GitHub 仓库提供了完整的流水线、训练权重以及将系统扩展到新手稿集合的说明。