[논문] 기관 문서 데이터 스냅샷 추출을 위한 오픈소스 레이아웃 감지 모델 벤치마킹
개요
기관 문서에는 그림과 표에 내재된 방대한 운영·분석 정보가 포함되어 있습니다. 현재 문서에서 시각적 콘텐츠를 추출하는 접근 방식은 대부분 일반적인 문서 레이아웃 분석에 기반하고 있으며, 그림과 표를 일관된 문서 객체로만 취급하고 의미론적으로 중요한 분석 아티팩트로 보지 못합니다. 본 연구에서는 데이터 스냅샷 추출이라는 과제를 위한 벤치마크 데이터셋과 평가 프레임워크를 소개합니다. 데이터 스냅샷 추출은 기관 문서 내에서 의미론적으로 중요한 시각적 아티팩트를 식별하고 위치를 지정하는 작업을 의미합니다. 이 벤치마크는 인도주의 보고서, 세계은행 정책 연구 워킹 페이퍼, 프로젝트 평가 문서를 포괄하며, 재사용 가능한 분석 정보를 담고 있는 그림과 표에 대한 주석을 포함합니다. 우리는 이 데이터셋을 활용해 여러 오픈소스 레이아웃 탐지 모델을 벤치마크하고, 탐지 성능과 공간 추출 품질을 평가했습니다. 결과는 기존 모델이 전통적인 학술 벤치마크에서는 높은 성능을 보이지만, 실제 운영 기관 문서에 일반화하는 데 어려움을 겪는다는 것을 보여줍니다. 주요 실패 원인으로는 분석 내용과 비분석 내용을 혼동하는 경우, 복합 분석 아티팩트가 조각화되는 경우, 해석에 필요한 맥락 정보를 완전하게 추출하지 못하는 경우 등이 있습니다. 이러한 결과는 일반적인 문서 레이아웃 분석과 실제 운영에 유용한 데이터 스냅샷 추출 사이에 지속적인 격차가 존재함을 강조합니다. 우리는 향후 운영 문서 인텔리전스 연구를 지원하기 위해 원본 PDF, 주석 데이터셋, 메타데이터 및 소스 코드를 공개합니다. 데이터셋은 https://huggingface.co/datasets/ai4data/data-snapshot 에서, 소스 코드는 https://github.com/worldbank/ai4data/tree/main/experimental/data-snapshot 에서 확인할 수 있습니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다.
- cs.CL
- cs.AI
- cs.CV
- cs.IR
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- AJ Carl P. Dy
- Aivin V. Solatorio
논문 정보
- arXiv ID: 2606.06242v1
- 분류: cs.CL, cs.AI, cs.CV, cs.IR
- 발표일: 2026년 6월 4일
- PDF: PDF 다운로드