[Paper] GlotOCR Bench：OCR 模型仍在少数 Unicode 脚本之外挣扎

发布: 3周前 (2026年4月15日 GMT+8 01:12)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.12978v1

概览

论文 “GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts” 提出了一个新的大规模基准，用于测试现代 OCR 系统在处理 超过 100 种 不同书写系统时的表现。通过将真实的多语言文本渲染成清晰和降质的图像，作者揭示了一个显著的差距：即使是最先进的视觉‑语言模型也只能可靠地识别几十种脚本，许多脚本则完全无法识别。

关键贡献

GlotOCR Bench 数据集 – >100 种 Unicode 脚本，每种脚本使用多种字体（Google Fonts）渲染，支持从左到右和从右到左的 shaping，使用 HarfBuzz 进行 shaping 并由 FreeType 栅格化。包括干净版和合成降级版。
严格的验证流水线 – 人工检查确保每个脚本正确渲染，使基准在可重复性方面值得信赖。
全面的评估 – 测试了广泛的开源权重模型（如 TrOCR、Donut）和专有的视觉语言 OCR 模型（如 Google Cloud Vision、Azure OCR）。
实证洞察 – 展示了 OCR 性能与脚本级预训练数据量高度相关，而不仅仅是视觉特征学习。
开源发布 – 基准数据集和渲染流水线均公开可用（GitHub + Hugging Face），社区可以扩展或改编测试套件。

方法论

文本来源选择 – 对多语言语料库进行抽样，以获取每种 Unicode 脚本的代表性句子。
渲染管线 – 使用 HarfBuzz 对每个句子进行 shaping（处理复杂脚本、连字、从右到左方向），并使用 FreeType 结合来自 Google Fonts 的随机字体进行光栅化，生成高质量 PNG。
降级模拟 – 应用高斯模糊、噪声、压缩伪影和透视畸变，生成模拟真实扫描或相机拍摄的“噪声”变体。
人工检查 – 小团队检查每种脚本的分层抽样，以确认字形渲染正确且方向性准确。
模型评估 – 使用精确匹配和字符级编辑距离将 OCR 输出与真实的 Unicode 字符串进行比较。根据模型所见的预训练数据量对脚本进行分组（例如，拉丁文 vs. N’Ko）。

该管线刻意设计为模块化，开发者可以轻松插入新字体、降级类型或 OCR 引擎，几乎无需额外工作。

结果与发现

指标	最佳开源模型	最佳专有模型
脚本匹配度 >90% 的数量	12	18
脚本匹配度 >50% 的数量	28	33
脚本匹配度 <10% 的数量	57	49

覆盖上限 – 即使是最强的模型，也只能正确识别 100 多种脚本中不到 30 种。
预训练重要 – 在模型语言模型预训练语料库中频繁出现的脚本（例如拉丁文、斯拉夫文、阿拉伯文）能够获得显著更高的分数。
失效模式 – 当遇到未见过的脚本时，模型要么输出乱码，要么“幻觉”出它已知脚本的字符（例如将天城文误认为孟加拉文）。
降级影响 – 在降质图像集上，准确率整体下降约 15–20%，凸显视觉噪声会加剧脚本泛化问题。

实际影响

产品路线图 – 构建 OCR SaaS 的公司应优先在预训练流水线中扩展脚本覆盖，而不是仅仅依赖视觉特征的改进。
国际化 – 面向新兴市场（例如非洲、东南亚）的应用不能假设开箱即用的 OCR 能正常工作；仍需为低资源脚本进行定制数据收集。
测试与质量保证 – GlotOCR Bench 可以集成到 CI 流水线中，以在更新 OCR 模型时捕获脚本支持的回归。
混合方法 – 将视觉识别器与轻量级脚本识别模块结合，可将输入路由到特定脚本的微调模型，从而减轻幻觉现象。
开源工具 – 渲染流水线可重新用于为代表性不足的脚本生成合成训练数据，加速以数据为中心的开发。

限制与未来工作

合成数据 vs. 真实数据 – 虽然基准测试模拟了真实世界的噪声，但仍依赖于合成降解；在真正的扫描文档上的表现可能会有所不同。
脚本粒度 – 某些脚本共享字形（例如拉丁系字母），未被区分，这可能会在相近脚本之间人为提升得分。
模型范围 – 本研究聚焦于视觉‑语言模型；传统 OCR 流水线（如带语言包的 Tesseract）未进行评估。
未来方向 – 作者建议通过加入手写样本、增加更极端的降解以及探索在预训练期间逐步引入新脚本的 curriculum‑learning 策略来扩展基准测试。

作者

Amir Hossein Kargaran
Nafiseh Nikeghbal
Jana Diesner
François Yvon
Hinrich Schütze

论文信息

arXiv ID: 2604.12978v1
类别: cs.CL, cs.CV
发布时间: 2026年4月14日
PDF: Download PDF

[Paper] GlotOCR Bench：OCR 模型仍在少数 Unicode 脚本之外挣扎

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 视觉-语言模型真的能进行视觉推理吗？对模态差距的严谨研究

[论文] MM-WebAgent：一种用于网页生成的层次化多模态网页代理

[Paper] SpatialEvo：通过确定性几何环境实现自进化空间智能