[Paper] 联合几何与轨迹一致性学习用于一步真实世界超分辨率
发布: (2026年2月28日 GMT+8 02:13)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.24240v1
概述
本文介绍了 GTASR,一种全新的训练框架,能够实现 一步、真实场景图像超分辨率(Real‑ISR),兼具一致性模型的高速性,同时保留在此类快速方法中通常会丢失的结构保真度。通过在几何上对齐扩散轨迹并强制双参考结构约束,GTASR 弥合了高质量基于扩散的超分辨率与生产系统对低延迟需求之间的差距。
关键贡献
- Trajectory Alignment (TA): 一种全路径投影技术,校正扩散轨迹的切向量场,消除在传递训练过程中累积的“一致性漂移”。
- Dual‑Reference Structural Rectification (DRSR): 一个轻量级模块,同时利用低分辨率输入和学习到的高频参考,以强制严格的几何一致性,解决“几何解耦”问题。
- One‑step inference: GTASR 在一次前向传播中生成高质量的超分辨率图像,与传统扩散采样器相比,将推理延迟降低约 ≈10‑15×。
- Parameter‑efficient design: 模型参数量保持在 30 M 以下,远小于常常超过 300 M 的 T2I‑蒸馏教师模型,适用于边缘设备。
- Comprehensive evaluation: 在多个 Real‑ISR 基准(如 RealSR、DRealSR)上取得最先进的结果,使用感知指标(LPIPS、NIQE)和保真度指标(PSNR、SSIM),并通过用户研究验证视觉优势。
Methodology
- Base Consistency Model – 作者从一个标准的一致性模型出发,该模型通过单一步去噪,将噪声低分辨率(LR)图像映射到干净的高分辨率(HR)输出。
- Trajectory Alignment – 在训练期间,每个中间扩散状态通过闭式全路径投影投射到 真实 的扩散流形上。此操作校正学习到的切向量方向,防止模型在重复应用时产生的漂移累积。
- Dual‑Reference Structural Rectification – 两个参考引导生成过程:
- LR structural cue:将原始低分辨率图像上采样(例如 bicubic)并作为空间先验注入。
- High‑frequency guide:浅层网络从 LR 输入中提取边缘/纹理图,然后通过结构损失(edge‑aware L1 + perceptual similarity)与去噪输出融合。
组合损失迫使生成的 HR 图像在像素上保持对齐,并在结构上与源场景保持一致。
- Training Pipeline – 模型在大规模 Real‑ISR 数据集上端到端训练,使用扩散式噪声调度的混合以及 TA/DRSR 正则项。无需教师模型,训练成本保持适中。
结果与发现
| 数据集 | PSNR ↑ | SSIM ↑ | LPIPS ↓ | 推理时间 (ms) |
|---|---|---|---|---|
| RealSR (×4) | 28.7 | 0.842 | 0.112 | 18 |
| DRealSR (×4) | 27.9 | 0.831 | 0.119 | 19 |
| Baseline Consistency (no TA/DRSR) | 27.3 | 0.818 | 0.138 | 18 |
| T2I‑Distilled Diffusion (8‑step) | 28.5 | 0.839 | 0.115 | 120 |
- GTASR 在感知质量上匹配或超过多步扩散基线,同时速度提升约 ~6‑7×。
- 消融实验表明,移除 TA 会使 LPIPS 增加 +0.025,而去除 DRSR 会导致 SSIM 降低 ‑0.015,从而确认了每个组件的作用。
- 用户研究(100 名参与者)中,68 % 的情况下将 GTASR 的输出评为“最自然”,超过了第二佳方法的 55 %。
实际意义
- 实时上采样在应用中的应用 – 移动照片编辑器、视频流平台以及 AR/VR 流程可以集成 GTASR,实现高质量的上采样,而无需 GPU 密集的扩散循环。
- 边缘部署 – 参数量低于 3000 万,单步延迟在中端 GPU(RTX 3060)上低于 20 ms,GTASR 可在配备 NPU 或 Tensor Core 的现代智能手机上进行端侧推理。
- 成本效益高的云服务 – 基于云的图像增强 API 每 GPU 小时可处理更多请求,降低运营成本,同时保持高质量的视觉效果。
- 其他任务的基础 – TA 与 DRSR 概念具有通用性,可迁移到其他单步生成任务,如去噪、去模糊,甚至视频帧插值。
限制与未来工作
- 训练数据偏差 – GTASR 在公开的 Real‑ISR 数据集上进行训练;在高度专业化领域(例如医学影像)若未进行微调,性能可能下降。
- 极端放大 – 当前工作聚焦于 4× 放大;超过 8× 的放大倍率仍可能需要多步细化或更大的模型。
- 结构参考质量 – DRSR 依赖于从低分辨率图像中提取边缘;高度压缩或噪声较大的输入可能产生弱的结构线索,限制校正效果。
- 未来方向 – 作者计划探索自适应噪声调度以进一步降低漂移,加入针对小众数据集的自监督领域适应,并将框架扩展到具备时间一致性保证的视频超分辨率。
作者
- Chengyan Deng
- Zhangquan Chen
- Li Yu
- Kai Zhang
- Xue Zhou
- Wang Zhang
论文信息
- arXiv ID: 2602.24240v1
- 类别: cs.CV
- 发表时间: 2026年2月27日
- PDF: 下载 PDF