[Paper] MatteViT:高频感知文档阴影去除与阴影遮罩引导
Source: arXiv - 2512.08789v1
Overview
本文介绍了 MatteViT,一种新型深度学习框架,能够在保持文本和线稿清晰度的同时去除扫描或拍摄文档中的阴影。通过将空间线索与频域处理相结合,作者实现了业界领先的效果,并显著提升了 OCR 准确率——这对任何依赖干净数字文档的工作流都是利好。
Key Contributions
- Matte Vision Transformer (MatteViT):一种基于 Transformer 的架构,联合利用空间信息和高频细节进行阴影去除。
- High‑Frequency Amplification Module (HFAM):轻量级插件,能够在重建前分离并自适应增强高频成分(边缘、笔画)。
- Continuous luminance‑based shadow matte:一种从自定义 matte 数据集生成的连续阴影掩码,提供从网络首层开始的精确引导。
- Comprehensive benchmark evaluation:在 RDD 与 Kligler 阴影文档数据集上取得新最佳分数,并显著提升下游 OCR 性能。
Methodology
-
Input preprocessing – 将原始文档图像输入 shadow matte generator,预测连续 matte(每像素的阴影强度图)。该 matte 如同软 “阴影模板”,指示网络阴影最强的区域。
-
High‑frequency extraction – 通过类似小波的简单分解,将图像拆分为低频(整体光照)和高频(边缘、细小文字)分量。
-
HFAM – 高频分支经过 High‑Frequency Amplification Module,学习像素级缩放因子,选择性地增强被阴影削弱的细弱边缘。
-
Transformer backbone – 将 matte 引导的低频图和放大后的高频图拼接后送入 Vision Transformer。自注意力机制使模型能够全局推理光照,同时保留局部细节。
-
Reconstruction – Transformer 通过重新组合精炼后的低频和高频流输出无阴影图像。整个管线可端到端训练,损失函数综合了 L1、感知损失和 matte 一致性损失。
Results & Findings
- Quantitative gains:MatteViT 在 RDD 基准上将平均绝对误差(MAE)降低约 12 %,并使 PSNR/SSIM 相比之前的最佳方法提升 1.8 dB / 0.03。
- OCR boost:将清理后的文档输入 Tesseract 和现代深度 OCR 模型后,字符错误率分别比最强基线下降 9 % 和 7 %。
- Ablation studies:去除 HFAM 或连续 matte 均会导致 MAE 下降约 5 %,验证了高频增强和 matte 引导的必要性。
- Speed:HFAM 仅在 RTX 3080 上为每张 512 × 512 图像增加 < 2 ms 的计算,整体推理时间保持在 50 ms 以下,足以满足实时扫描应用。
Practical Implications
- Document digitization pipelines – 将 MatteViT 集成到文档数字化流程中,可显著提升扫描档案、法律文件和收据的质量,减少人工后处理。
- Mobile scanning apps – 轻量级的 HFAM 与高效的 Transformer 设计使其能够在现代智能手机上运行,为用户提供近乎即时的阴影去除。
- Improved downstream AI – 更干净的输入提升 OCR、版面分析乃至后续 NLP 任务的可靠性。
- Enterprise automation – 自动化处理发票或合同的企业可期待更高的抽取准确率和更低的错误处理成本。
Limitations & Future Work
- Dataset bias – 自定义 matte 数据集侧重于典型的办公室光照;在极端户外阴影或高度纹理化纸张上的表现可能下降。
- Model size – 虽然推理速度快,但 Transformer 主干仍需约 120 MB GPU 内存,对低端边缘设备可能构成障碍。
- Future directions – 作者建议探索知识蒸馏以压缩模型规模,扩展 matte 生成以处理彩色阴影,并将框架适配到视频流,实现连续文档捕获。
Authors
- Chaewon Kim
- Seoyeon Lee
- Jonghyuk Park
Paper Information
- arXiv ID: 2512.08789v1
- Categories: cs.CV, cs.AI
- Published: December 9, 2025
- PDF: Download PDF