[Paper] GlotOCR Bench:OCR 模型仍在少数 Unicode 脚本之外挣扎
发布: (2026年4月15日 GMT+8 01:12)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.12978v1
概览
论文 “GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts” 提出了一个新的大规模基准,用于测试现代 OCR 系统在处理 超过 100 种 不同书写系统时的表现。通过将真实的多语言文本渲染成清晰和降质的图像,作者揭示了一个显著的差距:即使是最先进的视觉‑语言模型也只能可靠地识别几十种脚本,许多脚本则完全无法识别。
关键贡献
- GlotOCR Bench 数据集 – >100 种 Unicode 脚本,每种脚本使用多种字体(Google Fonts)渲染,支持从左到右和从右到左的 shaping,使用 HarfBuzz 进行 shaping 并由 FreeType 栅格化。包括干净版和合成降级版。
- 严格的验证流水线 – 人工检查确保每个脚本正确渲染,使基准在可重复性方面值得信赖。
- 全面的评估 – 测试了广泛的开源权重模型(如 TrOCR、Donut)和专有的视觉语言 OCR 模型(如 Google Cloud Vision、Azure OCR)。
- 实证洞察 – 展示了 OCR 性能与脚本级预训练数据量高度相关,而不仅仅是视觉特征学习。
- 开源发布 – 基准数据集和渲染流水线均公开可用(GitHub + Hugging Face),社区可以扩展或改编测试套件。
方法论
- 文本来源选择 – 对多语言语料库进行抽样,以获取每种 Unicode 脚本的代表性句子。
- 渲染管线 – 使用 HarfBuzz 对每个句子进行 shaping(处理复杂脚本、连字、从右到左方向),并使用 FreeType 结合来自 Google Fonts 的随机字体进行光栅化,生成高质量 PNG。
- 降级模拟 – 应用高斯模糊、噪声、压缩伪影和透视畸变,生成模拟真实扫描或相机拍摄的“噪声”变体。
- 人工检查 – 小团队检查每种脚本的分层抽样,以确认字形渲染正确且方向性准确。
- 模型评估 – 使用精确匹配和字符级编辑距离将 OCR 输出与真实的 Unicode 字符串进行比较。根据模型所见的预训练数据量对脚本进行分组(例如,拉丁文 vs. N’Ko)。
该管线刻意设计为模块化,开发者可以轻松插入新字体、降级类型或 OCR 引擎,几乎无需额外工作。
结果与发现
| 指标 | 最佳开源模型 | 最佳专有模型 |
|---|---|---|
| 脚本匹配度 >90% 的数量 | 12 | 18 |
| 脚本匹配度 >50% 的数量 | 28 | 33 |
| 脚本匹配度 <10% 的数量 | 57 | 49 |
- 覆盖上限 – 即使是最强的模型,也只能正确识别 100 多种脚本中不到 30 种。
- 预训练重要 – 在模型语言模型预训练语料库中频繁出现的脚本(例如拉丁文、斯拉夫文、阿拉伯文)能够获得显著更高的分数。
- 失效模式 – 当遇到未见过的脚本时,模型要么输出乱码,要么“幻觉”出它已知脚本的字符(例如将天城文误认为孟加拉文)。
- 降级影响 – 在降质图像集上,准确率整体下降约 15–20%,凸显视觉噪声会加剧脚本泛化问题。
实际影响
- 产品路线图 – 构建 OCR SaaS 的公司应优先在预训练流水线中扩展脚本覆盖,而不是仅仅依赖视觉特征的改进。
- 国际化 – 面向新兴市场(例如非洲、东南亚)的应用不能假设开箱即用的 OCR 能正常工作;仍需为低资源脚本进行定制数据收集。
- 测试与质量保证 – GlotOCR Bench 可以集成到 CI 流水线中,以在更新 OCR 模型时捕获脚本支持的回归。
- 混合方法 – 将视觉识别器与轻量级脚本识别模块结合,可将输入路由到特定脚本的微调模型,从而减轻幻觉现象。
- 开源工具 – 渲染流水线可重新用于为代表性不足的脚本生成合成训练数据,加速以数据为中心的开发。
限制与未来工作
- 合成数据 vs. 真实数据 – 虽然基准测试模拟了真实世界的噪声,但仍依赖于合成降解;在真正的扫描文档上的表现可能会有所不同。
- 脚本粒度 – 某些脚本共享字形(例如拉丁系字母),未被区分,这可能会在相近脚本之间人为提升得分。
- 模型范围 – 本研究聚焦于视觉‑语言模型;传统 OCR 流水线(如带语言包的 Tesseract)未进行评估。
- 未来方向 – 作者建议通过加入手写样本、增加更极端的降解以及探索在预训练期间逐步引入新脚本的 curriculum‑learning 策略来扩展基准测试。
作者
- Amir Hossein Kargaran
- Nafiseh Nikeghbal
- Jana Diesner
- François Yvon
- Hinrich Schütze
论文信息
- arXiv ID: 2604.12978v1
- 类别: cs.CL, cs.CV
- 发布时间: 2026年4月14日
- PDF: Download PDF