[论文] PixelGen:Pixel Diffusion 击败 Latent Diffusion,使用感知损失
Source: arXiv - 2602.02493v1
概览
PixelGen 表明,你可以在像素空间直接训练扩散模型,并且仍然超越当前最先进的潜在扩散管线。通过加入两个感知损失项,分别关注局部纹理(LPIPS)和全局语义(DINO),作者将模型引导至一个“感知流形”,相较于原始的高维像素分布更易学习。其结果是一个更简洁、端到端的生成器,在没有任何 classifier‑free 引导且仅训练 80 个 epoch 的情况下,在 ImageNet‑256 上实现 5.11 的 FID。
关键贡献
- 纯像素空间扩散:消除潜在扩散中使用的 VAE 编码器/解码器瓶颈,去除主要的伪影来源。
- 双重感知监督:
- LPIPS 损失 鼓励真实的局部模式(纹理、边缘)。
- 基于 DINO 的损失 强化一致的全局语义(对象布局、场景一致性)。
- 最先进的性能:在 ImageNet‑256 上超越强大的潜在扩散基线(FID 5.11),并在大规模文本到图像任务中表现良好(GenEval 0.79)。
- 训练效率:仅用 80 个 epoch 即可达到顶级结果,远少于典型的潜在扩散训练计划。
- 开源实现:代码已发布,便于可复现性和快速采用。
方法论
PixelGen 遵循经典的去噪扩散概率模型(DDPM)流程,但 直接在 256×256 RGB 图像上 进行操作。其核心思路是用两种感知损失取代朴素的像素级重建损失,这两种感知损失在预训练网络的中间特征图上计算:
- LPIPS(Learned Perceptual Image Patch Similarity) – 比较来自冻结的视觉 Transformer 或 CNN 的深层特征,惩罚局部纹理和细粒度细节的差异。
- DINO 损失 – 使用自监督 DINO 模型的特征捕捉高层语义相似性(例如,物体类别、场景布局)。
在训练过程中,扩散模型预测在每个时间步向噪声图像添加的噪声。随后将预测得到的清晰图像送入上述两种感知网络,计算得到的 LPIPS 和 DINO 距离会被加入标准的扩散目标中。由于感知网络是 固定的,它们充当一种学习得到的高层先验,引导扩散过程朝向像素流形上感知上有意义的区域发展,同时仍然允许模型端到端学习完整的分布。
结果与发现
| 数据集 / 指标 | PixelGen(无引导) | Latent Diffusion(基线) |
|---|---|---|
| ImageNet‑256(FID) | 5.11 | ~6.5–7.0 |
| Text‑to‑Image(GenEval) | 0.79 | ~0.70 |
| 训练轮次 | 80 | 500+(典型) |
- 质量:视觉样本显示出更锐利的边缘、更少的 VAE 引起的模糊以及更连贯的全局构图。
- 效率:收敛更快(80 × 与数百轮相比)且无需额外的编码器/解码器通道。
- 可扩展性:在扩展到更大的文本条件模型时,感知损失仍然提供明显优势,表明该方法并不局限于小规模基准。
实际意义
- 更简洁的流水线:开发者可以完全去掉 VAE 阶段,降低代码复杂度、内存占用和推理延迟。
- 更快的原型迭代:只需少量训练 epoch 即可达到竞争性的质量,团队能够更快地在模型架构或条件策略上进行迭代。
- 更好地与下游任务集成:由于模型直接在像素空间工作,可直接与其他像素级模块(例如超分辨率、修复)结合,无需进行潜在空间的转换。
- 有望在边缘设备上运行:去除编码器/解码器后,前向传播次数减半,这使得基于扩散的生成在显存受限的 GPU 或专用加速器上更具可行性。
- 开源基础:发布的代码库提供了一个即用型模板,可用于构建自定义文本到图像或条件生成系统,并可直接受益于感知监督。
限制与未来工作
- 感知损失依赖:该方法依赖预训练的 LPIPS 和 DINO 模型;这些网络中的任何偏差或局限都会传播到生成器。
- 内存使用:直接在高分辨率像素上操作仍然需要大量 GPU 内存,尤其是对于更大的图像或批量大小。
- 对其他模态的泛化:本文聚焦于自然图像;将感知损失框架扩展到视频、3‑D 或医学成像仍是未解之题。
- 消融深度:虽然双重损失显示出显著提升,但进一步分析可能揭示某一损失是否占主导,或替代感知度量(如 CLIP)是否能带来额外收益。
未来工作可以探索 轻量级感知教师、降低内存的混合精度训练技巧,以及将相同理念应用于多模态扩散模型(音视频、文本到视频等)。
作者
- Zehong Ma
- Ruihan Xu
- Shiliang Zhang
论文信息
- arXiv ID: 2602.02493v1
- 分类: cs.CV, cs.AI
- 出版时间: 2026年2月2日
- PDF: 下载 PDF