[Paper] 深度学习方法在中世纪历史文献转录中的应用
发布: (2025年12月22日 GMT+8 03:43)
6 min read
原文: arXiv
Source: arXiv - 2512.18865v1
请提供您希望翻译的具体文本内容(例如摘要、引言或其他段落),我将按照要求保留源链接并将文本翻译为简体中文。谢谢!
Overview
本文介绍了一条深度学习流水线,能够自动转录中世纪手稿(9 至 11 世纪)的拉丁手写文本。通过将现代 OCR/HTR 技术针对早期中世纪书写体的特殊性进行定制,作者实现了足以支撑大规模历史档案数字化的高准确度。
关键贡献
- Domain‑aware dataset creation – 一个经过策划的中世纪拉丁手稿图像集合,包含行级和词级标注,并附有详尽的探索性数据分析。
- End‑to‑end transcription pipeline – 结合对象检测(定位文本块)、用于词级识别的分类模型,以及用于处理词汇表外字形的学习嵌入空间。
- Comprehensive evaluation – 报告召回率、精确率、F1、IoU、混淆矩阵和平均字符串距离,提供对不同书写体变体下性能的透明视图。
- Open‑source implementation – 完整代码、已训练模型以及数据预处理脚本已在 GitHub 上发布,支持可复现性和社区扩展。
方法论
-
数据准备
- 扫描的手稿页面进行预处理(二值化、去倾斜)。
- 手动标注定义单词和行的边界框。
- 增强(随机旋转、弹性扭曲)模拟墨水、羊皮纸和书写者风格的变异。
-
目标检测
- 使用轻量级的基于 CNN 的检测器(例如 Faster R‑CNN)扫描每页,定位单词大小的区域。
- 通过交并比(IoU)阈值过滤检测框,以减少误报。
-
单词识别
- 将检测到的单词图像输入分类网络(基于 ResNet),映射到拉丁语词元的固定词汇表。
- 对于词表外或模糊的字形,使用词嵌入分支学习连续表示,允许基于相似度的解码。
-
后处理
- 使用在中世纪拉丁语语料上训练的语言模型(字符级 LSTM)对原始预测进行细化,纠正不太可能的序列。
-
评估
- 在检测层面(IoU、精确率/召回率)和转录层面(F1、平均字符串距离)计算指标。
结果与发现
| Metric | Value |
|---|---|
| Detection Precision | 0.92 |
| Detection Recall | 0.88 |
| Word‑level F1 Score | 0.84 |
| Mean String Distance (Levenshtein) | 1.7 characters |
| IoU (average) | 0.78 |
- 检测器能够可靠地分离单词,即使在间距不规则和墨水渗透的情况下也能正常工作。
- 即使面对罕见的连字,得益于 embedding fallback,分类准确率仍然保持在高水平。
- 语言模型后处理将平均编辑距离降低约 30 %,展示了上下文约束的价值。
实际意义
- 大规模数字化 – 档案馆可以在最少人工监督的情况下处理成千上万页,大幅降低创建可搜索语料库的时间和成本。
- 数字人文工具 – 研究人员能够几乎实时访问转录文本,进行大规模语言学、古文字学和文化分析,这在以前是不可行的。
- 跨领域迁移 – 模块化流水线(检测器 + 分类器 + 嵌入)可以用适量数据重新训练,以适用于其他低资源历史文字(例如早期西里尔字母、阿拉伯文)。
- 与现有平台集成 – 开源代码可以封装为微服务(REST API),并接入文档管理系统、图书馆目录或 Zooniverse 等众包平台。
限制与未来工作
- 词汇覆盖 – 分类器依赖预定义的拉丁词形列表;罕见或损坏的词仍会回退到嵌入路径,从而导致置信度降低。
- 书写多样性 – 实验仅限于9至11世纪的拉丁手稿;后期中世纪更为复杂的缩写可能需要额外的模型容量。
- 真实标签稀缺 – 手工标注工作量大;半监督或主动学习策略有望进一步降低标注负担。
- 实际部署 – 当前评估使用相对干净的扫描件;对低分辨率照片或严重损坏的页码的鲁棒性仍是未解之题。
作者的 GitHub 仓库提供了完整的流水线、训练权重以及将系统扩展到新手稿集合的说明。
作者
- Maksym Voloshchuk
- Bohdana Zarembovska
- Mykola Kozlenko
论文信息
- arXiv ID: 2512.18865v1
- Categories: cs.CV, cs.CL, cs.LG
- Published: 2025年12月21日
- PDF: 下载 PDF