[논문] RealDocBench: 실제 규제 문서의 필드‑레벨 QA와 레이아웃 이해를 위한 벤치마크

발행: 5일 전 (2026년 6월 6일 AM 12:41 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.07401v1

개요

문서 파싱 시스템은 주택담보대출 심사, 재무 보고, 공급망 물류, 임상 기록 등 고위험·규제된 워크플로에 점점 더 많이 도입되고 있습니다. 그러나 대부분의 공개 벤치마크는 정제된 학술 레이아웃이나 합성 텍스트에 대해 파서들을 평가하고, 단일 OCR 혹은 마크다운 수준의 유사도 점수만을 보고합니다. 이러한 문서와 지표는 실제 하위 시스템이 필요로 하는 것, 즉 복잡한 실제 페이지에서 특정 필드의 올바른 값을 추출하는 것과는 상관관계가 낮습니다. 우리는 실제 규제 문서에서 구축한 두 트랙 벤치마크인 RealDocBench를 소개합니다.

QA 트랙: 4개 도메인에 걸쳐 581개의 문서에서 1,356개의 필드 수준 질문을 제공하며, 각 질문은 키‑값 답변을 담은 typed gold_dict와 짝을 이룹니다. 파서는 필드별 정확도와 질문당 엄격 정확도 두 가지 기준으로 평가됩니다.
레이아웃 트랙: 1,500개의 인간 검증 페이지 이미지에 대해 9가지 클래스 공개 분류 체계에 따라 COCO 스타일 바운딩 박스를 주석 처리했습니다. 평가는 인접성을 고려한 분할·병합 복구를 포함하는 Hungarian 매처로 수행됩니다.

우리는 상업용 파싱 API, 범용 VLM, 오픈소스 OCR 모델 등 18개의 시스템을 동일한 추출·평가 프로토콜 하에 평가했으며, 정확도와 함께 페이지당 비용 및 캐시 무효화 지연 시간을 보고합니다. RealDocBench는 단일 숫자 벤치마크가 숨기는 광범위한 성능 차이, 지속적으로 어려운 의료 서브 도메인, 그리고 운영 포인트별 비용·지연 시간 트레이드오프를 드러냅니다. 우리는 데이터셋, 파서 어댑터, 평가 프레임워크를 공개하여 문서 파싱 시스템의 필드 수준 비교가 재현 가능하도록 지원합니다.

주요 기여

cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

Ameya Joshi
Joon Kim
Gus Eggert
Joseph Bajor
Cindy Hao
Jing Reyhan
Kushal Byatnal
Eli Badgio

논문 정보

arXiv ID: 2606.07401v1
Categories: cs.CV
Published: 2026년 6월 5일
PDF: PDF 다운로드

[논문] RealDocBench: 실제 규제 문서의 필드‑레벨 QA와 레이아웃 이해를 위한 벤치마크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniSHARP: 범용 선명 단안 시점 합성

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 스트리밍 힘 제어를 활용한 비디오 생성

[논문] 탐지 차이: 중요한 상황에서의 설명 가능성