[Paper] 후처리 마스크 기반 테이블 세그멘테이션을 통한 구조 좌표 추출

발행: (2025년 12월 25일 오전 02:10 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.21287v1

개요

이 논문은 문서‑이미지 처리에서 놀라울 정도로 까다로운 문제인 테이블 마스크 내부의 정확한 행 및 열 경계를 찾는 문제를 다룹니다. 특히 원본 이미지가 저해상도이거나, 노이즈가 많거나, 부분적으로 손상된 경우에 초점을 맞춥니다. 마스크를 다중 스케일 신호로 취급하고 Gaussian smoothing과 statistical thresholding을 연속적으로 적용함으로써, 저자는 대규모 벤치마크(PubLayNet‑1M)에서 하위 OCR 정확도가 눈에 띄게 향상되는 결과를 얻었습니다.

주요 기여

  • 표 마스크용 신호 처리 엣지 디텍터 – 행/열 전이를 1‑D 신호로 모델링하고 원시 이미지에 직접 작동하지 않고 안정적인 엣지를 추출합니다.
  • 점진적 다중 스케일 가우시안 컨볼루션 – 커지는 커널 분산을 사용해 잡음을 억제하면서 실제 구조 변화를 보존합니다.
  • 통계적 피크 선택 임계값 지정 – 자동으로 강인한 컷오프를 결정하여 수동 튜닝 파라미터를 없앱니다.
  • 제로 패딩 및 스케일링 전략 – 원본 이미지 해상도에 구애받지 않게 하여 기존 파이프라인과 원활히 통합됩니다.
  • 실증적 검증 – TableNet + PyTesseract OCR과 결합했을 때 PubLayNet‑1M에서 Cell‑Aware Segmentation Accuracy (CASA)를 67 %에서 76 %로 향상시킵니다.

Methodology

  1. Mask Generation – 상위 테이블 검출기(예: TableNet)가 테이블 영역을 대략적으로 윤곽짓는 이진 마스크를 생성합니다.
  2. 1‑D Signal Construction – 각 축(열을 위한 가로, 행을 위한 세로)마다 마스크를 직교 방향으로 픽셀 값을 합산하여 1차원 강도 프로파일로 축소합니다. 이 프로파일의 피크는 잠재적인 셀 경계를 나타냅니다.
  3. Multi‑Scale Gaussian Smoothing
    • 작은 σ 값을 갖는 좁은 Gaussian 커널부터 시작하여 세부 정보를 보존합니다.
    • σ 값을 점진적으로 증가시키면서 매번 신호에 컨볼루션합니다. 큰 σ 값은 고주파 노이즈를 흐리게 하면서 실제 테이블 라인을 나타내는 넓고 일관된 전이를 유지합니다.
  4. Statistical Thresholding
    • 각 스무딩 단계 후에 신호의 평균과 표준편차를 계산합니다.
    • 동적 임계값(예: μ + k·σ)을 초과하는 점만 유지합니다. 이는 스펙클이나 스캔 아티팩트에 의해 발생한 잡음 피크를 필터링합니다.
  5. Peak Detection & Mapping
    • 남은 피크를 정확히 위치시킵니다(필요시 서브픽셀 보간).
    • 이 위치들을 원본 이미지 좌표계에 매핑하여 정확한 행/열 좌표를 얻습니다.
  6. Resolution‑Invariant Handling
    • 입력 마스크가 저해상도인 경우, 신호를 제로 패딩하고 필요에 따라 업샘플링한 뒤 스무딩을 수행하여 Gaussian 커널이 일관된 스케일에서 작동하도록 합니다.

전체 파이프라인은 가볍고(순수 NumPy/CPU 연산) 기존 OCR 또는 테이블 추출 워크플로우에 바로 적용할 수 있습니다.

Results & Findings

Dataset / SetupBaseline CASA*With Proposed Edge Detector
PubLayNet‑1M (TableNet + PyTesseract)67 %76 %
Varying DPI (150‑300) – same pipeline60 % → 71 %68 % → 78 %

*Cell‑Aware Segmentation Accuracy (CASA)는 텍스트 정확도(OCR) 셀 배치 정확도를 모두 측정하므로, 일반 OCR 단어 오류율보다 더 엄격한 지표입니다.

  • 노이즈 강인성: 마스크에 합성 가우시안 노이즈를 추가하면 베이스라인은 약 9 % 감소하지만, 제안 방법은 < 3 %만 감소합니다.
  • 해상도 불변성: 제로 패딩 + 스케일링을 사용하면 2배 DPI 변화에서도 성능이 안정적으로 유지되는 반면, 베이스라인은 150 DPI로 다운샘플링될 때 약 5 % 감소합니다.
  • 연산량: 엣지 추출 단계는 단일 CPU 코어당 테이블당 약 0.02 초를 추가하며, OCR 시간에 비해 무시할 수 있을 정도로 적습니다.

Practical Implications

  • Plug‑and‑play upgrade: 개발자는 마스크 생성 모델(TableNet, Detectron2, YOLO 기반 탐지기 등) 주변에 엣지 디텍터를 감싸서 재학습 없이 사용할 수 있다.
  • Higher‑quality structured outputs: 더 정확한 행/열 좌표는 하위 데이터 파이프라인(예: 자동 청구서 처리, 과학적 표 마이닝)이 더 깨끗한 CSV/JSON 내보내기를 받아 수동 정리를 줄인다.
  • Cost savings on OCR: 셀 정렬이 개선되면 OCR 신뢰도 점수가 향상되어 저비용 OCR 엔진(오픈소스 Tesseract)을 사용해 많은 경우에 고가의 상용 API를 대체할 수 있다.
  • Edge‑device friendliness: 알고리즘이 CPU 전용이며 메모리 사용량이 적어 GPU 자원이 부족한 엣지 디바이스(모바일 스캐너, 임베디드 문서 스캐너)에서도 실행 가능하다.
  • Improved compliance & auditability: 규제 산업(금융, 의료)에서는 정확한 표 추출이 감사 추적에 필수적이며, 이 방법은 독점 블랙박스 구성 요소를 추가하지 않고 신뢰성을 높인다.

제한 사항 및 향후 작업

  • 양호한 초기 마스크에 대한 의존성: 상위 탐지기가 테이블 영역을 완전히 놓치면, 신호 처리 단계에서 이를 복구할 수 없습니다.
  • 고정된 가우시안 스케줄: 현재 진행형 σ 스케줄은 수작업으로 설계되었습니다; 문서 유형별 최적 스케줄을 학습하면 추가적인 성능 향상이 기대됩니다.
  • 복잡한 테이블 레이아웃: 다중 레벨 헤더, 병합 셀, 혹은 크게 기울어진 테이블은 1‑D 신호 가정에 여전히 도전 과제를 제공합니다; 2‑D 에지 맵을 처리하도록 방법을 확장하는 것이 유망한 방향입니다.
  • 벤치마크 범위: 실험은 PubLayNet에 집중되어 있습니다; 보다 다양한 데이터셋(역사적 아카이브, 손글씨 테이블 등)에서 평가하면 일반화 가능성을 더욱 확고히 할 수 있습니다.

전반적으로, 이 논문은 잡음이 많거나 저해상도 스캔을 다루는 테이블 추출 파이프라인을 구축하는 개발자들이 즉시 채택할 수 있는 실용적이고 낮은 오버헤드의 기술을 제공합니다.

저자

  • Suren Bandara

논문 정보

  • arXiv ID: 2512.21287v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 24일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »