[Paper] 基于掩码的表格分割后处理用于结构坐标提取

发布: 1个月前 (2025年12月25日 GMT+8 01:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.21287v1

概述

本文针对文档图像处理中的一个出人意料的顽固问题：在表格掩码内部精确定位行列边界，尤其是当源图像分辨率低、噪声大或部分损坏时。作者将掩码视为多尺度信号，并采用巧妙的高斯平滑与统计阈值的级联处理，从而在大规模基准（PubLayNet‑1M）上显著提升了下游 OCR 的准确率。

Signal‑processing edge detector for table masks – 将行/列的转变建模为一维信号，并在不直接处理原始图像的情况下提取稳定的边缘。
Progressive multi‑scale Gaussian convolution – 使用逐渐增大的卷积核方差来抑制噪声，同时保留真实的结构变化。
Statistical peak‑selection thresholding – 自动确定稳健的阈值，消除手工调参。
Zero‑padding & scaling strategy – 使方法对原始图像分辨率保持无关，从而实现与现有流水线的无缝集成。
Empirical validation – 在与 TableNet + PyTesseract OCR 结合时，将 PubLayNet‑1M 上的 Cell‑Aware Segmentation Accuracy (CASA) 从 67 % 提升至 76 %。

Mask Generation – 上游表格检测器（例如 TableNet）生成一个二值掩码，粗略勾勒出表格区域。
1‑D Signal Construction – 对于每个轴（列的水平轴，行的垂直轴），将掩码沿正交方向求和，得到一维强度剖面。该剖面中的峰值对应潜在的单元格边界。
Multi‑Scale Gaussian Smoothing
- 从窄的高斯核（小 σ）开始，以保留细节。
- 逐步增大 σ，每次对信号进行卷积。较大的 σ 会模糊高频噪声，同时保留代表真实表格线的更宽、连续的转折。
Statistical Thresholding
- 每次平滑后，计算信号的均值和标准差。
- 仅保留超过动态阈值的点（例如 μ + k·σ），以过滤掉由斑点或扫描伪影产生的虚假峰值。
Peak Detection & Mapping
- 对剩余的峰值进行精确定位（必要时进行亚像素插值）。
- 将它们的位置映射回原始图像坐标系，得到精确的行/列坐标。
Resolution‑Invariant Handling
- 若输入掩码分辨率较低，先对信号进行零填充并可选地上采样后再平滑，确保高斯核在一致的尺度上工作。

整个管线轻量（纯 NumPy/CPU 操作），可直接嵌入任何现有的 OCR 或表格抽取工作流中。

数据集 / 设置	基线 CASA*	使用提议的边缘检测器
PubLayNet‑1M（TableNet + PyTesseract）	67 %	76 %
变化 DPI（150‑300） – 相同流水线	60 % → 71 %	68 % → 78 %

*Cell‑Aware Segmentation Accuracy (CASA) 同时衡量文本正确性（OCR）and单元格的正确放置，使其比普通 OCR 词错误率更为严格的指标。

即插即用升级： 开发者可以将 edge‑detector 包装在任何生成掩码的模型（TableNet、Detectron2、基于 YOLO 的检测器）周围，而无需重新训练。
更高质量的结构化输出： 更精确的行/列坐标意味着下游数据流水线（例如自动发票处理、科学表格挖掘）能够获得更干净的 CSV/JSON 导出，减少人工清理工作。
降低 OCR 成本： 更好的单元格对齐提升 OCR 置信度，使得低成本的 OCR 引擎（开源 Tesseract）能够在许多使用场景中取代昂贵的商业 API。
适用于边缘设备： 由于算法仅使用 CPU 且占用内存少，可在边缘设备（移动扫描仪、嵌入式文档扫描仪）上运行，这些设备的 GPU 资源有限。
提升合规性与可审计性： 在受监管行业（金融、医疗）中，精确的表格提取对审计追踪至关重要；该方法在不增加专有黑箱组件的前提下，提高了可靠性。

Source: …

总体而言，本文提供了一种务实、低开销的技术，开发者在构建表格提取流水线时，尤其是处理噪声或低分辨率扫描时，可立即采用。