[논문] RealDocBench: 실제 규제 문서의 필드‑레벨 QA와 레이아웃 이해를 위한 벤치마크
개요
문서 파싱 시스템은 주택담보대출 심사, 재무 보고, 공급망 물류, 임상 기록 등 고위험·규제된 워크플로에 점점 더 많이 도입되고 있습니다. 그러나 대부분의 공개 벤치마크는 정제된 학술 레이아웃이나 합성 텍스트에 대해 파서들을 평가하고, 단일 OCR 혹은 마크다운 수준의 유사도 점수만을 보고합니다. 이러한 문서와 지표는 실제 하위 시스템이 필요로 하는 것, 즉 복잡한 실제 페이지에서 특정 필드의 올바른 값을 추출하는 것과는 상관관계가 낮습니다. 우리는 실제 규제 문서에서 구축한 두 트랙 벤치마크인 RealDocBench를 소개합니다.
- QA 트랙: 4개 도메인에 걸쳐 581개의 문서에서 1,356개의 필드 수준 질문을 제공하며, 각 질문은 키‑값 답변을 담은 typed gold_dict와 짝을 이룹니다. 파서는 필드별 정확도와 질문당 엄격 정확도 두 가지 기준으로 평가됩니다.
- 레이아웃 트랙: 1,500개의 인간 검증 페이지 이미지에 대해 9가지 클래스 공개 분류 체계에 따라 COCO 스타일 바운딩 박스를 주석 처리했습니다. 평가는 인접성을 고려한 분할·병합 복구를 포함하는 Hungarian 매처로 수행됩니다.
우리는 상업용 파싱 API, 범용 VLM, 오픈소스 OCR 모델 등 18개의 시스템을 동일한 추출·평가 프로토콜 하에 평가했으며, 정확도와 함께 페이지당 비용 및 캐시 무효화 지연 시간을 보고합니다. RealDocBench는 단일 숫자 벤치마크가 숨기는 광범위한 성능 차이, 지속적으로 어려운 의료 서브 도메인, 그리고 운영 포인트별 비용·지연 시간 트레이드오프를 드러냅니다. 우리는 데이터셋, 파서 어댑터, 평가 프레임워크를 공개하여 문서 파싱 시스템의 필드 수준 비교가 재현 가능하도록 지원합니다.
주요 기여
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CV 분야의 발전에 기여합니다.
저자
- Ameya Joshi
- Joon Kim
- Gus Eggert
- Joseph Bajor
- Cindy Hao
- Jing Reyhan
- Kushal Byatnal
- Eli Badgio
논문 정보
- arXiv ID: 2606.07401v1
- Categories: cs.CV
- Published: 2026년 6월 5일
- PDF: PDF 다운로드