[Paper] 基于掩码的表格分割后处理用于结构坐标提取
发布: (2025年12月25日 GMT+8 01:10)
7 min read
原文: arXiv
Source: arXiv - 2512.21287v1
概述
本文针对文档图像处理中的一个出人意料的顽固问题:在表格掩码内部精确定位行列边界,尤其是当源图像分辨率低、噪声大或部分损坏时。作者将掩码视为多尺度信号,并采用巧妙的高斯平滑与统计阈值的级联处理,从而在大规模基准(PubLayNet‑1M)上显著提升了下游 OCR 的准确率。
Key Contributions
- Signal‑processing edge detector for table masks – 将行/列的转变建模为一维信号,并在不直接处理原始图像的情况下提取稳定的边缘。
- Progressive multi‑scale Gaussian convolution – 使用逐渐增大的卷积核方差来抑制噪声,同时保留真实的结构变化。
- Statistical peak‑selection thresholding – 自动确定稳健的阈值,消除手工调参。
- Zero‑padding & scaling strategy – 使方法对原始图像分辨率保持无关,从而实现与现有流水线的无缝集成。
- Empirical validation – 在与 TableNet + PyTesseract OCR 结合时,将 PubLayNet‑1M 上的 Cell‑Aware Segmentation Accuracy (CASA) 从 67 % 提升至 76 %。
方法论
- Mask Generation – 上游表格检测器(例如 TableNet)生成一个二值掩码,粗略勾勒出表格区域。
- 1‑D Signal Construction – 对于每个轴(列的水平轴,行的垂直轴),将掩码沿正交方向求和,得到一维强度剖面。该剖面中的峰值对应潜在的单元格边界。
- Multi‑Scale Gaussian Smoothing
- 从窄的高斯核(小 σ)开始,以保留细节。
- 逐步增大 σ,每次对信号进行卷积。较大的 σ 会模糊高频噪声,同时保留代表真实表格线的更宽、连续的转折。
- Statistical Thresholding
- 每次平滑后,计算信号的均值和标准差。
- 仅保留超过动态阈值的点(例如 μ + k·σ),以过滤掉由斑点或扫描伪影产生的虚假峰值。
- Peak Detection & Mapping
- 对剩余的峰值进行精确定位(必要时进行亚像素插值)。
- 将它们的位置映射回原始图像坐标系,得到精确的行/列坐标。
- Resolution‑Invariant Handling
- 若输入掩码分辨率较低,先对信号进行零填充并可选地上采样后再平滑,确保高斯核在一致的尺度上工作。
整个管线轻量(纯 NumPy/CPU 操作),可直接嵌入任何现有的 OCR 或表格抽取工作流中。
结果与发现
| 数据集 / 设置 | 基线 CASA* | 使用提议的边缘检测器 |
|---|---|---|
| PubLayNet‑1M(TableNet + PyTesseract) | 67 % | 76 % |
| 变化 DPI(150‑300) – 相同流水线 | 60 % → 71 % | 68 % → 78 % |
*Cell‑Aware Segmentation Accuracy (CASA) 同时衡量文本正确性(OCR)and单元格的正确放置,使其比普通 OCR 词错误率更为严格的指标。
- 噪声鲁棒性: 向掩码添加合成高斯噪声会使基线下降约 9 %,而提议的方法下降 < 3 %。
- 分辨率不变性: 零填充 + 缩放在 2× DPI 变化下保持性能稳定,而基线在降采样至 150 DPI 时下降约 5 %。
- 计算量: 边缘提取步骤在单核 CPU 上每张表格额外增加约 0.02 秒,较 OCR 时间可忽略不计。
实际影响
- 即插即用升级: 开发者可以将 edge‑detector 包装在任何生成掩码的模型(TableNet、Detectron2、基于 YOLO 的检测器)周围,而无需重新训练。
- 更高质量的结构化输出: 更精确的行/列坐标意味着下游数据流水线(例如自动发票处理、科学表格挖掘)能够获得更干净的 CSV/JSON 导出,减少人工清理工作。
- 降低 OCR 成本: 更好的单元格对齐提升 OCR 置信度,使得低成本的 OCR 引擎(开源 Tesseract)能够在许多使用场景中取代昂贵的商业 API。
- 适用于边缘设备: 由于算法仅使用 CPU 且占用内存少,可在边缘设备(移动扫描仪、嵌入式文档扫描仪)上运行,这些设备的 GPU 资源有限。
- 提升合规性与可审计性: 在受监管行业(金融、医疗)中,精确的表格提取对审计追踪至关重要;该方法在不增加专有黑箱组件的前提下,提高了可靠性。
Source: …
限制与未来工作
- 依赖良好的初始掩码: 如果上游检测器完全漏检表格区域,信号处理步骤无法恢复。
- 固定的高斯调度: 当前的渐进 σ 调度是手工设计的;为每种文档类型学习最优调度可能带来进一步提升。
- 复杂表格布局: 多层表头、合并单元格或严重倾斜的表格仍然挑战一维信号假设;将方法扩展至处理二维边缘图是一个有前景的方向。
- 基准覆盖范围: 实验主要聚焦于 PubLayNet;在更丰富的数据集(历史档案、手写表格)上进行评估将进一步验证通用性。
总体而言,本文提供了一种务实、低开销的技术,开发者在构建表格提取流水线时,尤其是处理噪声或低分辨率扫描时,可立即采用。
作者
- Suren Bandara
论文信息
- arXiv ID: 2512.21287v1
- 类别: cs.CV
- 出版时间: 2025年12月24日
- PDF: 下载 PDF