[Paper] Stream-DiffVSR:低延迟可流式视频超分辨率 via Auto-Regressive Diffusion

发布: (2025年12月30日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.23709v1

概述

本文介绍了 Stream‑DiffVSR,一种基于扩散的 视频超分辨率(VSR)系统,能够 在线 工作——仅查看过去的帧,并且在 RTX 4090 上大约 0.33 s per frame 将 720p 视频放大。通过为因果性和速度重新设计扩散流水线,作者弥合了扩散模型的高感知质量与流媒体、视频会议、AR/VR 等实时应用对低延迟的需求之间的差距。

关键贡献

  • 因果扩散框架:确保仅使用先前接收的帧,实现真正的流式 VSR。
  • 四步蒸馏去噪器:将通常需要数十步的扩散过程压缩至仅四个推理步骤,相比之前的扩散 VSR 将延迟降低 >130 倍。
  • 自回归时序引导 (ARTG):将过去帧的运动信息直接对齐到潜在去噪阶段,在不需要昂贵光流后处理的情况下保持时序一致性。
  • 具时序感知的解码器与时序处理模块 (TPM):一个轻量级的头部,在强化空间细节的同时强制帧间时序连贯。
  • 最先进的性能:在感知指标上超越当前在线 VSR 领跑者 (TMP)(LPIPS +0.095),且速度显著更快,并创下扩散式 VSR 报告的最低延迟 (0.328 秒 对比 >4600 秒的初始延迟)。

方法论

  1. 因果条件 – 模型接收一个已生成的高分辨率帧的滑动窗口以及当前的低分辨率输入。不会访问未来帧,这对流式处理至关重要。
  2. 蒸馏扩散 – 传统扩散需要 20‑100 步去噪。作者训练了一个知识蒸馏的去噪器,使其在仅四步内近似完整的扩散轨迹,类似于图像的“快速扩散”。
  3. 自回归时序引导 (ARTG) – 在每一步去噪之前,潜在表征会被先前高分辨率输出中提取的运动对齐特征轻推。通过使用轻量级运动估计器对过去特征进行扭曲,并将其作为条件向量注入。
  4. 时序处理模块 (TPM) – 在最终去噪步骤之后,一个紧凑的解码器将潜在空间上采样到目标分辨率。TPM 包含一个时序注意力块,查看短期历史(例如最近 3 帧),以平滑闪烁并强化细节。
  5. 训练 – 整个流水线在高帧率视频数据集上端到端训练,使用感知损失 (LPIPS)、重建损失 (L1) 和时序一致性损失来惩罚帧间差异。

结果与发现

指标(数值越高越好)TMP(online SOTA)Stream‑DiffVSR
LPIPS0.2150.120 (+0.095)
PSNR (dB)27.828.3
每帧 720p 运行时间43 s (GPU)0.328 s
初始延迟(首帧)>4600 s0.328 s
  • 感知质量:LPIPS 的提升显示出纹理明显更锐利,伪影更少,尤其在头发或植被等高频区域。
  • 时间一致性:视觉检查和时间一致性损失表明,与朴素的逐帧扩散相比,闪烁伪影显著减少。
  • 速度:四步蒸馏去噪器结合 ARTG/TPM 将推理成本降低到可与传统基于 CNN 的 VSR 相媲美的水平,同时仍提供扩散级别的细节。

实际影响

  • 直播与视频会议 – 平台可以在不缓存后续帧的情况下实时对低分辨率流进行超分辨率处理,为带宽受限的用户提供更清晰的视频。
  • 边缘 AI 设备 – 轻量级解码器和受限的扩散步骤使其能够在高端消费级 GPU 上运行,甚至可以在优化的设备加速器上运行(例如 NVIDIA Jetson)。
  • AR/VR 内容流水线 – 对 720p(甚至 1080p)纹理进行实时超分辨率,可在对延迟有严格要求的混合现实应用中提升视觉保真度。
  • 内容创作工具 – 编辑器可以即时预览高质量的超分辨率画面,加速 VFX 与后期制作的工作流程。

限制与未来工作

  • 硬件依赖 – 报告的每帧 0.328 秒是在 RTX 4090 上实现的;在更低端的 GPU 或 CPU 上性能会更慢,因此可能需要进一步的模型压缩以实现更广泛的部署。
  • 时间窗口大小 – ARTG 和 TPM 依赖于短历史(通常为 3‑5 帧)。极快的运动或长程依赖仍可能导致偶发的时间伪影。
  • 训练数据偏差 – 该模型在公开可用的视频数据集上训练;特定领域的内容(例如医学影像、科学可视化)可能需要微调。
  • 未来方向 作者提出的包括:
    • 将因果扩散概念扩展到 更高分辨率(4K),并采用分层上采样。
    • 探索 自适应步数调度,使较容易的帧使用更少的扩散步数。
    • 融入 学习式运动估计,其参数与 ARTG 模块共享,以降低开销。

Stream‑DiffVSR 表明扩散模型不再局限于离线、批处理的视频增强。通过结合因果性、知识蒸馏和巧妙的时间引导,它为现实应用中的高质量、低延迟 VSR 开辟了道路。

作者

  • Hau-Shiang Shiu
  • Chin-Yang Lin
  • Zhixiang Wang
  • Chi-Wei Hsiao
  • Po-Fan Yu
  • Yu-Chih Chen
  • Yu-Lun Liu

论文信息

  • arXiv ID: 2512.23709v1
  • 分类: cs.CV
  • 出版日期: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……