[论文] PixelGen：Pixel Diffusion 击败 Latent Diffusion，使用感知损失

发布: 1天前 (2026年2月3日 GMT+8 02:59)

7 min read

原文: arXiv

Source: arXiv - 2602.02493v1

概览

PixelGen 表明，你可以在像素空间直接训练扩散模型，并且仍然超越当前最先进的潜在扩散管线。通过加入两个感知损失项，分别关注局部纹理（LPIPS）和全局语义（DINO），作者将模型引导至一个“感知流形”，相较于原始的高维像素分布更易学习。其结果是一个更简洁、端到端的生成器，在没有任何 classifier‑free 引导且仅训练 80 个 epoch 的情况下，在 ImageNet‑256 上实现 5.11 的 FID。

关键贡献

纯像素空间扩散：消除潜在扩散中使用的 VAE 编码器/解码器瓶颈，去除主要的伪影来源。
双重感知监督：
- LPIPS 损失 鼓励真实的局部模式（纹理、边缘）。
- 基于 DINO 的损失 强化一致的全局语义（对象布局、场景一致性）。
最先进的性能：在 ImageNet‑256 上超越强大的潜在扩散基线（FID 5.11），并在大规模文本到图像任务中表现良好（GenEval 0.79）。
训练效率：仅用 80 个 epoch 即可达到顶级结果，远少于典型的潜在扩散训练计划。
开源实现：代码已发布，便于可复现性和快速采用。

方法论

PixelGen 遵循经典的去噪扩散概率模型（DDPM）流程，但 直接在 256×256 RGB 图像上 进行操作。其核心思路是用两种感知损失取代朴素的像素级重建损失，这两种感知损失在预训练网络的中间特征图上计算：

LPIPS（Learned Perceptual Image Patch Similarity） – 比较来自冻结的视觉 Transformer 或 CNN 的深层特征，惩罚局部纹理和细粒度细节的差异。
DINO 损失 – 使用自监督 DINO 模型的特征捕捉高层语义相似性（例如，物体类别、场景布局）。

在训练过程中，扩散模型预测在每个时间步向噪声图像添加的噪声。随后将预测得到的清晰图像送入上述两种感知网络，计算得到的 LPIPS 和 DINO 距离会被加入标准的扩散目标中。由于感知网络是 固定的，它们充当一种学习得到的高层先验，引导扩散过程朝向像素流形上感知上有意义的区域发展，同时仍然允许模型端到端学习完整的分布。

结果与发现

数据集 / 指标	PixelGen（无引导）	Latent Diffusion（基线）
ImageNet‑256（FID）	5.11	~6.5–7.0
Text‑to‑Image（GenEval）	0.79	~0.70
训练轮次	80	500+（典型）

质量：视觉样本显示出更锐利的边缘、更少的 VAE 引起的模糊以及更连贯的全局构图。
效率：收敛更快（80 ×  与数百轮相比）且无需额外的编码器/解码器通道。
可扩展性：在扩展到更大的文本条件模型时，感知损失仍然提供明显优势，表明该方法并不局限于小规模基准。

实际意义

更简洁的流水线：开发者可以完全去掉 VAE 阶段，降低代码复杂度、内存占用和推理延迟。
更快的原型迭代：只需少量训练 epoch 即可达到竞争性的质量，团队能够更快地在模型架构或条件策略上进行迭代。
更好地与下游任务集成：由于模型直接在像素空间工作，可直接与其他像素级模块（例如超分辨率、修复）结合，无需进行潜在空间的转换。
有望在边缘设备上运行：去除编码器/解码器后，前向传播次数减半，这使得基于扩散的生成在显存受限的 GPU 或专用加速器上更具可行性。
开源基础：发布的代码库提供了一个即用型模板，可用于构建自定义文本到图像或条件生成系统，并可直接受益于感知监督。

限制与未来工作

感知损失依赖：该方法依赖预训练的 LPIPS 和 DINO 模型；这些网络中的任何偏差或局限都会传播到生成器。
内存使用：直接在高分辨率像素上操作仍然需要大量 GPU 内存，尤其是对于更大的图像或批量大小。
对其他模态的泛化：本文聚焦于自然图像；将感知损失框架扩展到视频、3‑D 或医学成像仍是未解之题。
消融深度：虽然双重损失显示出显著提升，但进一步分析可能揭示某一损失是否占主导，或替代感知度量（如 CLIP）是否能带来额外收益。

未来工作可以探索 轻量级感知教师、降低内存的混合精度训练技巧，以及将相同理念应用于多模态扩散模型（音视频、文本到视频等）。

作者

Zehong Ma
Ruihan Xu
Shiliang Zhang

论文信息

arXiv ID: 2602.02493v1
分类: cs.CV, cs.AI
出版时间: 2026年2月2日
PDF: 下载 PDF

[论文] PixelGen：Pixel Diffusion 击败 Latent Diffusion，使用感知损失

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 通过将检测头融入上下文层神经网络实现多头自动分割

[Paper] MentisOculi: 揭示使用心理意象进行推理的局限性

[Paper] UniReason 1.0：一个用于世界知识对齐的图像生成与编辑的统一推理框架

[Paper] ReasonEdit：使用人类推理编辑视觉语言模型