[Paper] 基准测试文档解析器在PDF中的数学公式提取

发布: (2025年12月11日 GMT+8 02:01)
6 min read
原文: arXiv

Source: arXiv - 2512.09874v1

Overview

从 PDF 中解析数学公式是构建科学搜索引擎、知识图谱或在学术文本上训练大型语言模型的隐藏瓶颈。本文提出了一个新的、可复现的基准,用于评估现代 PDF 解析器提取公式的能力,并引入了一种巧妙的 “LLM‑as‑judge” 方法来评估提取的 LaTeX 的语义正确性。

Key Contributions

  • Synthetic PDF benchmark – 生成具有完整已知 LaTeX 真值的 PDF,能够细粒度控制版面、字体和公式复杂度。
  • LLM‑as‑judge evaluation – 使用大型语言模型对提取的公式与参考公式之间的语义相似度进行打分,并通过人工判断进行验证。
  • Two‑stage matching pipeline – 在顺序和标记化不匹配的情况下,将解析器输出与真值公式对齐。
  • Comprehensive empirical study – 在 100 份合成文档、超过 2,000 条公式上,对 20 多种最先进的 PDF 解析器(基于 OCR、视觉‑语言、规则)进行基准测试。
  • Open‑source release – 所有代码、数据和评估脚本均公开可得(论文中的 GitHub 链接)。

Methodology

  1. Synthetic Document Generation – 作者通过程序从 LaTeX 源文件生成 PDF,变化列布局、字体大小以及周围文本。由于源 LaTeX 已知,每个公式都有精确的真值表示。
  2. Parser Ingestion – 将每个 PDF 输入到一系列解析器中。解析器输出原始文本、LaTeX 片段或边界框注释。
  3. Two‑Stage Matching
    • Stage 1: 基于空间邻近性和标记重叠进行粗略对齐。
    • Stage 2: 使用编辑距离和结构启发式进行精细匹配,以处理公式顺序改变或被拆分的情况。
  4. Semantic Scoring – LLM(如 GPT‑4)接收一对公式(提取的 vs. 真值),返回相似度分数(0–1)。作者将该评分与对 250 对公式(30 位评估者,750 条评分)的人工研究进行校准。
  5. Baseline Metrics – 为了对比,还计算了 CDM(字符级距离度量)和纯文本相似度(BLEU/ROUGE)。

整个流水线全自动化,便于插入新解析器或扩展合成语料库。

Results & Findings

Metric (Correlation with Human Scores)CDMText‑SimilarityLLM‑as‑Judge
Pearson r0.34~0.000.78
  • Performance spread: 最佳的专用 OCR 模型实现约 68 % 的公式级别准确率,而通用视觉‑语言模型约为 30 %。经典规则‑基工具表现最差(<15 %)。
  • Error patterns: 大多数错误来源于上标/下标识别错误、多行公式处理不当,以及长公式在列间被拆分。
  • Scalability: LLM‑as‑judge 方法随公式数量线性扩展,仅需对每对公式进行少量 API 调用,因而适用于大规模评估。

Practical Implications

  • Tool selection: 构建科学文档摄取流水线的开发者现在可以通过数据驱动的方式选择满足准确率‑速度权衡的解析器。
  • Training data pipelines: 在为 LLM 预训练整理语料库时,使用该基准可以过滤低质量的公式提取,提高下游数学推理能力。
  • Knowledge‑base construction: 准确的 LaTeX 提取能够可靠地对方程进行索引,支持搜索、引用分析以及自动定理证明助手。
  • Benchmark as a service: 由于合成生成器和评估脚本是开源的,团队可以持续对内部 OCR 改进进行基准测试,而无需昂贵的人工作标注。

Limitations & Future Work

  • Synthetic vs. real PDFs: 虽然合成 PDF 提供了完美的真值,但可能无法捕捉扫描旧文档的所有怪癖(如噪声、压缩伪影)。
  • LLM dependence: 语义评分依赖专有 LLM API;模型版本的变化可能影响可复现性。
  • Formula complexity ceiling: 对于极长或高度嵌套的表达式(>30 个标记),LLM 评分的可靠性仍会下降。
  • Future directions: 作者建议将基准扩展到带部分人工标注的真实 PDF,探索开源 LLM 作为评审角色,并集成端到端流水线,将 OCR、版面分析和公式重建结合起来。

Authors

  • Pius Horn
  • Janis Keuper

Paper Information

  • arXiv ID: 2512.09874v1
  • Categories: cs.CV
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »