[Paper] 尺度空间扩散

发布: 16小时前 (2026年3月10日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.08709v1

Overview

论文《Scale Space Diffusion》将两个经典思想——生成图像的扩散模型和信号处理中的尺度空间理论——联系起来。作者通过展示高度噪声化的扩散步骤本质上等同于观察图像的一个极小、下采样的版本，提出了一类在多分辨率上运行的扩散模型，而不是始终处理全尺寸像素。其结果是一个更高效的生成管线，同时仍然保留了我们对现代扩散模型所期望的高质量输出。

关键贡献

理论链接 在基于扩散的噪声退化与尺度空间（低通）滤波之间，证明高噪声状态携带的信息不比低分辨率图像更多。
尺度空间扩散 (SSD)：一种新颖的扩散框架，用 广义线性退化（例如下采样）取代标准的高斯噪声，使模型能够在生成过程的早期在更粗的尺度上工作。
Flexi‑UNet：一种灵活的 UNet 架构，能够保持空间分辨率不变或即时提升，仅激活当前尺度所需的网络块。
全面的实证研究 在 CelebA 和 ImageNet 上进行，展示了 SSD 随图像分辨率和网络深度的平滑扩展，同时降低了计算和内存消耗。
开源发布 代码、预训练检查点以及交互式演示站点。

Source: …

方法论

重新解释扩散步骤 – 传统的扩散模型逐步添加高斯噪声。作者形式化地指出，经过足够多的步骤后，噪声图像在统计上与原图的高度下采样版本不可区分。
广义线性退化 – 与纯噪声不同，每个前向步骤先应用线性算子 (D_t)（例如，模糊 + 下采样），随后再加入少量高斯噪声。这产生了一族由 (D_t) 选择决定的扩散过程。
尺度空间扩散 – 通过将 (D_t) 设为逐步下采样算子，早期的扩散步骤在极小的图像上进行（例如 8×8），而后期步骤则逐渐恢复分辨率。
Flexi‑UNet 设计 – 网络由可模块化的块构成，可根据当前分辨率跳过或复制。当对低分辨率状态去噪时，仅运行 UNet 的浅层部分；随着分辨率提升，深层块被激活，从而避免在高分辨率特征图上进行不必要的计算。
训练与推理 – 模型使用标准扩散中相同的变分目标进行训练，但损失在每个时间步对应的尺度上计算。采样时，模型从一个极小的随机张量开始，迭代上采样，并在每个尺度上应用学习到的去噪。

结果与发现

数据集	指标 (FID ↓)	计算 (GPU‑hrs)	内存 (GB)
CelebA (64×64)	7.2 (相较基线 8.1)	‑35 %	‑30 %
ImageNet (256×256)	13.4 (相较基线 14.8)	‑28 %	‑25 %

质量：SSD 在各分辨率下匹配或略微提升标准扩散模型的视觉保真度。
效率：由于大多数早期时间步在极小张量上运行，总 FLOPs 下降约三分之一，且不牺牲样本质量。
可扩展性：通过改变 UNet 层数的实验表明，Flexi‑UNet 在深度与速度之间保持平滑的权衡；更深的配置从多尺度调度中受益更大。
消融实验：用纯高斯噪声替代下采样会消除效率提升，证实线性退化是关键因素。

实际意义

更快的原型设计 – 开发者可以通过利用早期低分辨率阶段，在普通 GPU 上训练高分辨率扩散模型，从而减少训练时间和硬件成本。
边缘部署 – 多尺度特性使得在内存有限的设备上生成成为可能；设备可以先在低分辨率开始生成，然后逐步放大，适配有限的 RAM。
混合流水线 – SSD 可以与现有的扩散技巧（例如 classifier‑free guidance、latent diffusion）结合，以进一步降低实时应用（如视频帧插值或交互式图像编辑）的延迟。
资源感知 API – 云服务可以提供“分辨率预算”参数，自动调整扩散调度以满足延迟或成本约束，同时保持输出质量。

限制与未来工作

降解选择：论文聚焦于简单的下采样；更复杂的线性算子（例如，学习的模糊）可能带来更好的权衡，但未被探索。
训练稳定性：非常深的 Flexi‑UNet 配置有时会出现梯度缩放问题，需要仔细的学习率调度。
对其他模态的泛化：虽然理论可扩展到任何线性降解，但实验仅限于 RGB 图像；将 SSD 应用于视频、3‑D 数据或音频仍是未解之题。
条件生成：当前工作处理的是无条件合成；将文本或类别条件整合到多尺度扩散管线是自然的下一步。

尺度空间扩散 提供了一个新视角，解释了为什么扩散模型需要在每一步处理全分辨率数据——并且展示了通过正确的数学框架，我们可以安全地跳过这一开销。对于希望在不牺牲质量的前提下挤出更多生成模型性能的开发者来说，论文的思想和开源工具是一个有吸引力的起点。

作者

Soumik Mukhopadhyay
Prateksha Udhayanan
Abhinav Shrivastava

论文信息

arXiv ID: 2603.08709v1
分类: cs.CV, cs.AI
发表时间: 2026年3月9日
PDF: 下载 PDF

[Paper] 尺度空间扩散

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 检索增强的 Gaussian Avatars：提升表情泛化

[Paper] UNBOX：使用自然语言揭示黑箱视觉模型

[Paper] Impermanent：实时基准用于时间序列预测中的时间泛化

[Paper] HiAR：通过层次去噪实现高效自回归长视频生成