[논문] POTATR: 페이지 수준 표 추출을 위한 경량 이미지‑그래프 모델

발행: 3일 전 (2026년 6월 9일 AM 02:43 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.09788v1

개요

대규모 문서 처리는 정확하면서도 효율적인 맥락 인식 테이블 추출(TE)이 필요합니다. 그러나 현재 접근 방식은 수십억 개의 파라미터, 수백 단계의 자동 회귀, 혹은 비용이 많이 드는 API 추론을 요구합니다. 이러한 문제를 해결하고자 우리는 페이지‑오브젝트 테이블 트랜스포머(POTATR)를 소개합니다. 이는 테이블 트랜스포머(TATR)를 확장한 2,900만 파라미터 규모의 경량 이미지‑투‑그래프 모델로, 페이지 수준의 맥락화된 TE를 수행합니다. POTATR는 PubTables‑v2 Single Pages 벤치마크에서 테스트된 모든 모델—최신 MLLM 포함—을 능가하며, $\textrm{GriTS}_\textrm{Con}$ 0.964를 달성하고 약 130배 빠른 속도와 300배 낮은 비용으로 실행됩니다. 또한 POTATR의 출력은 공간적으로 정렬됩니다: 인식된 모든 요소에 바운딩 박스가 부여되어 시각적 검증 및 기하학적 텍스트 할당이 가능합니다. 결과적으로 POTATR는 다른 모델과 결합해 통합된 페이지 수준 TE를 수행하며, 외부 OCR을 통한 스캔 문서 확장 및 페이지 간 병합과 같은 기법을 이용한 전체 문서 TE에도 적용할 수 있습니다. 코드와 모델은 곧 공개될 예정입니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다.

cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 시사점

이 연구는 cs.CV 분야의 발전에 기여합니다.

저자

Brandon Smock
Libin Liang
Max Sokolov
Amrit Ramesh
Valerie Faucon-Morin
Tayyibah Khanam
Maury Courtland

논문 정보

arXiv ID: 2606.09788v1
분류: cs.CV
발표일: 2026년 6월 8일
PDF: Download PDF

[논문] POTATR: 페이지 수준 표 추출을 위한 경량 이미지‑그래프 모델

개요

주요 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[Paper] 한 시간짜리 영상에서 자연어 시간 정합은 검색 문제: 벤치마크와 실증적 분해

[논문] 포렌식 이미지 검색의 모달리티 격차 해소

[논문] CellNet – 희소하고 잡음이 섞인 포인트 주석으로 세포 위치 파악

[논문] 점진적 크기 기반 프루닝으로 한 번의 학습 사이클에서 희소 서브네트워크 찾기