[Paper] ClusIR: 面向聚类引导的全能图像恢复

发布: (2025年12月12日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.10948v1

Overview

本文介绍了 ClusIR,一种全新的“一站式”图像恢复框架,能够在单一模型中处理多种图像退化——模糊、噪声、压缩伪影,甚至它们的混合。通过显式聚类退化类型并利用这些聚类来指导空间域和频域处理,ClusIR 在保持系统可在真实场景中部署的前提下,实现了比以往通用恢复模型更高的视觉保真度。

Key Contributions

  • 聚类引导的退化语义: 学习退化类型的概率聚类,将模糊的“未知退化”转化为明确、可解释的聚类。
  • 概率聚类引导路由机制 (PCGRM): 将退化识别与专家激活解耦,使模型能够以稳定、可微的方式将图像块路由到最合适的恢复专家。
  • 退化感知频率调制模块 (DAFMM): 使用聚类线索自适应分解并调制频率分量,提升结构(低频)和纹理(高频)的恢复效果。
  • 统一的空间‑频率协同: 两个模块协同工作,让语义退化线索直接影响频域调节——这是大多数先前的 AiOIR 方法所忽视的。
  • 大规模基准验证: 在多个标准恢复数据集上展示了竞争或领先的结果,包括对单任务模型极其困难的混合退化场景。

Methodology

  1. 可学习的退化聚类

    • 网络首先为每个输入图像(或图像块)提取紧凑的特征向量。
    • 轻量级聚类头预测 K 个退化聚类的概率分布(例如 “高斯噪声”、 “运动模糊”、 “JPEG 压缩”)。
    • 这些概率被视为软标签,使模型在退化混合时能够表达不确定性。
  2. 概率聚类引导路由 (PCGRM)

    • 每个聚类对应一个小型的 “专家” 子网络,专门处理该退化族。
    • 软聚类概率对所有专家的输出进行加权,实际上是将图像通过专家的混合而非硬切换进行路由。
    • 该设计在训练期间保持梯度稳定,避免了硬路由混合专家中常见的 “专家崩溃” 问题。
  3. 退化感知频率调制 (DAFMM)

    • 路由后的特征图通过频率分解块(如可学习的小波或傅里叶分割)。
    • 聚类概率调制每个频段的增益,使模型能够根据识别出的退化放大或抑制细节(例如,对去噪提升高频,对去模糊保留低频)。
    • 调制后的频段重新合成,得到兼顾结构完整性和细腻纹理的恢复图像。
  4. 训练目标

    • 结合重建损失(L1/L2)、感知损失(基于 VGG)以及鼓励聚类嵌入区分度的聚类正则项。
    • 端到端训练使聚类、路由和频率模块能够共同适应。

Results & Findings

  • 定量提升: 在五个基准套件(如 DIV2K‑Denoise、GoPro‑Deblur、JPEG‑Artifacts)上,ClusIR 相比最强基线提升 PSNR/SSIM 0.3–0.9 dB,混合退化测试集的提升尤为显著。
  • 视觉质量: 并排对比显示边缘更锐利、环形伪影更少、纹理更自然,尤其在图像同时受到模糊和压缩影响时。
  • 消融实验: 去除 PCGRM 会导致约 0.5 dB 的性能下降,关闭 DAFMM 则出现明显的纹理损失,验证了空间路由和频率调制的双重必要性。
  • 效率: 虽然包含多个专家,软路由支持并行执行;整体 FLOPs 与单任务恢复网络相当,因而可在现代 GPU 上实现实时推理。

Practical Implications

  • 统一的恢复服务: 开发者可以提供单一 API 接口用于图像清理(如用户上传的照片、监控视频),无需事先检测退化类型。
  • 边缘设备友好: 软路由和共享主干网络保持了低内存占用,使其能够部署在智能手机或嵌入式视觉模块上,避免了多个专用模型的实际困难。
  • 内容感知流水线: 媒体平台可自动提升用户生成内容(社交媒体、电商商品图)质量,即便上传过程混合了压缩、低光噪声和运动模糊。
  • 改进的数据增强: 合成多样退化的训练流水线现在可以使用单一、鲁棒的模型进行验证,简化质量控制环节。
  • 下游任务的基础: 更干净的图像提升了下游计算机视觉任务(目标检测、OCR、人脸识别)的表现,将 ClusIR 作为前置处理器可整体提升系统准确率。

Limitations & Future Work

  • 聚类粒度: 当前方法预先固定聚类数 K;若 K 过低会低估罕见退化,过高则会稀释专家专精度。可探索自适应或层次化聚类。
  • 极端退化: 对于非常严重或分布外的腐蚀(如强雨条纹、传感器饱和)仍然具有挑战性,需更广泛的训练数据或额外的专家模块。
  • 可解释性: 虽然聚类概率可得,但将其映射到人类可读的退化名称仍需后处理;更紧密地结合显式退化描述可提升透明度。
  • 低功耗硬件的实时约束: 虽然 FLOPs 与单任务模型相当,但并行专家执行的内存带宽在超低功耗设备上仍可能成为瓶颈;模型剪枝或专家集合的知识蒸馏是有前景的方向。

ClusIR 证明了语义聚类与频域调制的精心协同,终于实现了一套真正的“一站式”图像恢复系统,既实用又高性能,能够满足当今多样化视觉数据流水线的需求。

Authors

  • Shengkai Hu
  • Jiaqi Ma
  • Jun Wan
  • Wenwen Min
  • Yongcheng Jing
  • Lefei Zhang
  • Dacheng Tao

Paper Information

  • arXiv ID: 2512.10948v1
  • Categories: cs.CV
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »