[Paper] 深度学习方法在中世纪历史文献转录中的应用

发布: (2025年12月22日 GMT+8 03:43)
6 min read
原文: arXiv

Source: arXiv - 2512.18865v1

请提供您希望翻译的具体文本内容(例如摘要、引言或其他段落),我将按照要求保留源链接并将文本翻译为简体中文。谢谢!

Overview

本文介绍了一条深度学习流水线,能够自动转录中世纪手稿(9 至 11 世纪)的拉丁手写文本。通过将现代 OCR/HTR 技术针对早期中世纪书写体的特殊性进行定制,作者实现了足以支撑大规模历史档案数字化的高准确度。

关键贡献

  • Domain‑aware dataset creation – 一个经过策划的中世纪拉丁手稿图像集合,包含行级和词级标注,并附有详尽的探索性数据分析。
  • End‑to‑end transcription pipeline – 结合对象检测(定位文本块)、用于词级识别的分类模型,以及用于处理词汇表外字形的学习嵌入空间。
  • Comprehensive evaluation – 报告召回率、精确率、F1、IoU、混淆矩阵和平均字符串距离,提供对不同书写体变体下性能的透明视图。
  • Open‑source implementation – 完整代码、已训练模型以及数据预处理脚本已在 GitHub 上发布,支持可复现性和社区扩展。

方法论

  1. 数据准备

    • 扫描的手稿页面进行预处理(二值化、去倾斜)。
    • 手动标注定义单词和行的边界框。
    • 增强(随机旋转、弹性扭曲)模拟墨水、羊皮纸和书写者风格的变异。
  2. 目标检测

    • 使用轻量级的基于 CNN 的检测器(例如 Faster R‑CNN)扫描每页,定位单词大小的区域。
    • 通过交并比(IoU)阈值过滤检测框,以减少误报。
  3. 单词识别

    • 将检测到的单词图像输入分类网络(基于 ResNet),映射到拉丁语词元的固定词汇表。
    • 对于词表外或模糊的字形,使用词嵌入分支学习连续表示,允许基于相似度的解码。
  4. 后处理

    • 使用在中世纪拉丁语语料上训练的语言模型(字符级 LSTM)对原始预测进行细化,纠正不太可能的序列。
  5. 评估

    • 在检测层面(IoU、精确率/召回率)和转录层面(F1、平均字符串距离)计算指标。

结果与发现

MetricValue
Detection Precision0.92
Detection Recall0.88
Word‑level F1 Score0.84
Mean String Distance (Levenshtein)1.7 characters
IoU (average)0.78
  • 检测器能够可靠地分离单词,即使在间距不规则和墨水渗透的情况下也能正常工作。
  • 即使面对罕见的连字,得益于 embedding fallback,分类准确率仍然保持在高水平。
  • 语言模型后处理将平均编辑距离降低约 30 %,展示了上下文约束的价值。

实际意义

  • 大规模数字化 – 档案馆可以在最少人工监督的情况下处理成千上万页,大幅降低创建可搜索语料库的时间和成本。
  • 数字人文工具 – 研究人员能够几乎实时访问转录文本,进行大规模语言学、古文字学和文化分析,这在以前是不可行的。
  • 跨领域迁移 – 模块化流水线(检测器 + 分类器 + 嵌入)可以用适量数据重新训练,以适用于其他低资源历史文字(例如早期西里尔字母、阿拉伯文)。
  • 与现有平台集成 – 开源代码可以封装为微服务(REST API),并接入文档管理系统、图书馆目录或 Zooniverse 等众包平台。

限制与未来工作

  • 词汇覆盖 – 分类器依赖预定义的拉丁词形列表;罕见或损坏的词仍会回退到嵌入路径,从而导致置信度降低。
  • 书写多样性 – 实验仅限于9至11世纪的拉丁手稿;后期中世纪更为复杂的缩写可能需要额外的模型容量。
  • 真实标签稀缺 – 手工标注工作量大;半监督或主动学习策略有望进一步降低标注负担。
  • 实际部署 – 当前评估使用相对干净的扫描件;对低分辨率照片或严重损坏的页码的鲁棒性仍是未解之题。

作者的 GitHub 仓库提供了完整的流水线、训练权重以及将系统扩展到新手稿集合的说明。

作者

  • Maksym Voloshchuk
  • Bohdana Zarembovska
  • Mykola Kozlenko

论文信息

  • arXiv ID: 2512.18865v1
  • Categories: cs.CV, cs.CL, cs.LG
  • Published: 2025年12月21日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »