[Paper] PDF에서 수학 공식 추출을 위한 문서 파서 벤치마킹

발행: (2025년 12월 11일 오전 03:01 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.09874v1

Overview

PDF에서 수학 공식을 파싱하는 것은 과학 검색 엔진, 지식 그래프, 혹은 학술 텍스트를 대상으로 대규모 언어 모델을 학습하려는 사람들에게 숨겨진 병목 현상입니다. 이 논문은 최신 PDF 파서들이 공식을 얼마나 잘 추출할 수 있는지를 평가하는 새로운 재현 가능한 벤치마크를 제시하고, 추출된 LaTeX의 의미적 정확성을 평가하기 위한 “LLM‑as‑judge” 접근법을 소개합니다.

Key Contributions

  • Synthetic PDF benchmark – 레이아웃, 폰트, 공식 복잡도에 대한 세밀한 제어가 가능한, LaTeX 정답이 완전히 알려진 PDF를 생성합니다.
  • LLM‑as‑judge evaluation – 대형 언어 모델을 사용해 추출된 공식과 레퍼런스 공식 간의 의미적 유사성을 점수화하고, 이를 인간 판단과 비교 검증했습니다.
  • Two‑stage matching pipeline – 순서와 토크나이징 불일치에도 불구하고 파서 출력과 정답 공식을 정렬합니다.
  • Comprehensive empirical study – 100개의 합성 문서에 포함된 2,000개 이상의 공식을 대상으로 20개 이상의 최신 PDF 파서(OCR 기반, 비전‑언어, 규칙 기반)를 벤치마크했습니다.
  • Open‑source release – 모든 코드, 데이터, 평가 스크립트가 공개되어 있습니다(논문에 GitHub 링크 포함).

Methodology

  1. Synthetic Document Generation – 저자들은 LaTeX 소스로부터 프로그래밍 방식으로 PDF를 생성하고, 컬럼 레이아웃, 폰트 크기, 주변 텍스트를 다양하게 변형합니다. 소스 LaTeX가 알려져 있기 때문에 각 공식은 정확한 정답 표현을 가집니다.
  2. Parser Ingestion – 각 PDF를 여러 파서에 입력합니다. 파서는 원시 텍스트, LaTeX 조각, 혹은 바운딩 박스 주석을 출력합니다.
  3. Two‑Stage Matching
    • Stage 1: 공간적 근접성과 토큰 겹침을 기반으로 대략적인 정렬을 수행합니다.
    • Stage 2: 편집 거리와 구조적 휴리스틱을 이용해 재정렬되거나 분할된 공식을 정교하게 매칭합니다.
  4. Semantic Scoring – LLM(예: GPT‑4)이 추출된 공식과 정답 공식의 쌍을 받아 유사도 점수(0–1)를 반환합니다. 저자들은 250개의 공식 쌍(평가자 30명, 총 750번 평가)에 대한 인간 연구와 비교해 이 점수를 보정했습니다.
  5. Baseline Metrics – 비교를 위해 CDM(문자 수준 거리 메트릭)과 일반 텍스트 유사도(BLEU/ROUGE)도 계산했습니다.

이 파이프라인은 완전 자동화되어 있어 새로운 파서를 쉽게 추가하거나 합성 코퍼스를 확장할 수 있습니다.

Results & Findings

지표 (인간 점수와의 상관관계)CDM텍스트 유사도LLM‑as‑Judge
Pearson r0.34~0.000.78
  • Performance spread: 최고의 특화 OCR 모델은 약 68 % 공식 수준 정확도를 보였으며, 일반 비전‑언어 모델은 약 30 % 수준에 머물렀습니다. 고전적인 규칙 기반 도구는 가장 낮은 성능(<15 %)을 기록했습니다.
  • Error patterns: 대부분의 오류는 위첨자/아래첨자 인식 실패, 다중 행 방정식 처리 오류, 그리고 긴 공식을 컬럼 사이에 나누는 문제에서 발생했습니다.
  • Scalability: LLM‑as‑judge 접근법은 공식 수에 대해 선형적으로 확장되며, 쌍당 몇 번의 API 호출만 필요해 대규모 평가에 실용적입니다.

Practical Implications

  • Tool selection: 과학 문서 수집 파이프라인을 구축하는 개발자는 이제 정확도와 속도 사이의 트레이드오프를 데이터 기반으로 판단할 수 있습니다.
  • Training data pipelines: LLM 사전 학습용 코퍼스를 구성할 때, 이 벤치마크를 활용해 품질이 낮은 공식 추출을 걸러내면 downstream 수학 추론 능력이 향상됩니다.
  • Knowledge‑base construction: 정확한 LaTeX 추출은 검색, 인용 분석, 자동 정리 증명 보조 도구 등을 위한 방정식 인덱싱을 신뢰성 있게 만듭니다.
  • Benchmark as a service: 합성 생성기와 평가 스크립트가 오픈되어 있기 때문에, 팀은 비용이 많이 드는 인간 주석 없이도 내부 OCR 개선을 지속적으로 벤치마크할 수 있습니다.

Limitations & Future Work

  • Synthetic vs. real PDFs: 합성 PDF는 완벽한 정답을 제공하지만, 스캔된 레거시 문서의 잡음이나 압축 아티팩트와 같은 특성을 모두 반영하지 못할 수 있습니다.
  • LLM dependence: 의미 점수는 독점 LLM API에 의존하므로, 모델 버전 변화가 재현성에 영향을 줄 수 있습니다.
  • Formula complexity ceiling: 토큰 수가 30개를 초과하는 매우 길거나 중첩된 식은 여전히 LLM 점수 신뢰도가 떨어집니다.
  • Future directions: 저자들은 실제 PDF에 부분적인 인간 주석을 추가한 벤치마크 확장, 판단 역할을 위한 오픈소스 LLM 탐색, OCR·레이아웃 분석·공식 재구성을 통합한 엔드‑투‑엔드 파이프라인 구축 등을 제안했습니다.

Authors

  • Pius Horn
  • Janis Keuper

Paper Information

  • arXiv ID: 2512.09874v1
  • Categories: cs.CV
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.