[Paper] 统一扩散Transformer用于高保真文本感知图像修复

发布: (2025年12月10日 GMT+8 02:56)
7 min read
原文: arXiv

Source: arXiv - 2512.08922v1

概览

本文提出了 UniT,一个统一框架,将基于扩散的图像生成、视觉‑语言理解以及 OCR 风格的文本定位相结合,用于恢复文本内容受损的图像(例如模糊、低分辨率或噪声扫描)。通过将显式的语言线索反馈到扩散去噪循环中,UniT 大幅降低了通用扩散恢复器常见的“文本幻觉”问题,实现了输出中清晰、可读的文字。

主要贡献

  • 统一扩散 Transformer (DiT) + 视觉‑语言模型 (VLM) + 文本定位模块 (TSM):一个紧耦合的流水线,各组件在迭代去噪过程中相互信息共享。
  • 显式文本指导:VLM 从退化的输入中提取语义文本,并将其作为条件信号注入扩散过程。
  • 迭代 OCR 反馈:TSM 在每一步去噪时从扩散特征预测中间 OCR 结果,使 VLM 能够实时细化其指导。
  • 最先进的性能:在 SA‑Text 和 Real‑Text 基准上,UniT 达到了最高的端到端 F1 分数,同时显著降低了幻觉字符的出现。
  • 可通用的架构:该设计可以替换为其他扩散骨干或语言模型,成为任何以文本为中心的恢复任务的可复用构件。

方法论

  1. 输入与退化

    • 系统接收包含文本区域的低质量图像(如压缩、模糊或部分遮挡)。
  2. 扩散 Transformer (DiT)

    • 一个潜空间扩散模型,逐步对图像的噪声潜表示进行去噪。
    • 与普通扩散不同,DiT 接受 条件 token,携带超出纯像素统计的信息。
  3. 视觉‑语言模型 (VLM)

    • 预训练的多模态编码器(如 CLIP 或 BLIP),处理当前的噪声图像估计并提取描述可见字符的 文本嵌入
    • 该嵌入被转化为一组 指导 token,在每一步与扩散 Transformer 的输入拼接。
  4. 文本定位模块 (TSM)

    • 在扩散特征图上训练的轻量 OCR 头部。
    • 每一次去噪迭代都会预测一个中间转录(字符级或词级)。
  5. 迭代循环

    • 第 k 步

      1. DiT 生成稍微去噪的潜表示。
      2. VLM 读取该潜表示,输出文本嵌入。
      3. TSM 读取相同的潜表示,输出临时 OCR 字符串。
      4. 将 OCR 字符串(经分词)反馈给 VLM,提升其文本嵌入的精度。
      5. 精炼后的嵌入再次注入 DiT,进入下一去噪步骤。
    • 该闭环持续至扩散过程收敛,最终得到文本内容与原始一致的高保真图像。

结果与发现

数据集指标 (F1)幻觉率 ↓视觉质量 (PSNR/SSIM)
SA‑Text(合成)0.92 (↑ +7.4% 相比前沿)0.03 (↓ 45%)31.8 dB / 0.94
Real‑Text(真实扫描)0.88 (↑ +6.1%)0.05 (↓ 38%)29.5 dB / 0.91
  • 文本保真度:OCR‑导出的 F1 分数表明,UniT 能比仅使用扩散的基线更可靠地恢复准确字符。
  • 幻觉抑制:通过显式文本条件,模型避免了生成原始图像中不存在的字符。
  • 消融实验:去除 TSM 反馈环会导致 F1 下降约 4 点,验证了迭代 OCR 指导的重要性。

实际意义

  • 文档数字化流水线:企业在扫描遗留纸质文件时,可将 UniT 接入现有 OCR 流程,提升噪声或低分辨率扫描的识别准确率,无需人工重新标注。
  • 增强现实 (AR) 覆盖:在摄像头实时画面上进行文本恢复(如读取褪色标识),有助于翻译或无障碍应用的可读性提升。
  • 内容审查与取证分析:恢复图像中被遮挡的文字(如水印、模糊车牌),可辅助自动化分析并保持证据完整性。
  • 开发者友好集成:由于 UniT 的组件是模块化的(DiT、VLM、TSM),开发者可用自己偏好的模型(如 Stable Diffusion、OpenAI CLIP)替换任意部分,仍能受益于迭代指导机制。

局限性与未来工作

  • 计算成本:带有多轮条件传递和 OCR 反馈的扩散模型对 GPU 需求高,实时部署可能需要模型蒸馏或剪枝。
  • 语言覆盖:当前 VLM 与 TSM 主要在英文文本上训练;要扩展到多语言或手写文字,需要额外数据和可能不同的分词器。
  • 对极端退化的鲁棒性:当输入图像严重受损(如像素丢失 >70%)时,VLM 难以提取可靠的文本线索,限制了恢复质量。
  • 未来方向:作者建议探索轻量化扩散替代方案、引入大规模语言模型提供更丰富的语义指导,并将框架扩展到视频帧恢复,以保证文本的时序一致性。

作者

  • Jin Hyeon Kim
  • Paul Hyunbin Cho
  • Claire Kim
  • Jaewon Min
  • Jaeeun Lee
  • Jihye Park
  • Yeji Choi
  • Seungryong Kim

论文信息

  • arXiv ID: 2512.08922v1
  • 分类: cs.CV
  • 发表时间: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »