[Paper] 使用 Pixel Mean Flows 的一步 Latent-free 图像生成

发布: 1天前 (2026年1月30日 GMT+8 02:59)

7 min read

原文: arXiv

Source: arXiv - 2601.22158v1

概述

本文介绍了 Pixel MeanFlow (pMF)，这是一种新颖的方法，能够在 单次前向传播 中生成高分辨率图像，而无需依赖潜在表示。通过将网络的输出空间与其损失空间解耦，pMF 将两大近期趋势——一步采样和无潜在生成——相结合，实现了 ImageNet 级别的质量（FID ≈ 2.2 @ 256²，2.5 @ 512²），并显著降低了推理成本。

Source: …

关键贡献

一步完成、无潜在空间生成：在一次网络前向传播中生成逼真的图像，消除了多步扩散/流动管线。
MeanFlow 损失公式：引入基于速度场的损失，在像素强度的 MeanFlow 上进行计算，而网络直接在图像流形上进行预测。
简单的图像‑速度变换：提供了像素值与其平均速度场之间的可数学处理的映射，确保训练过程的稳定性。
在 ImageNet 上取得最先进的 FID 分数，分辨率为 256×256 和 512×512，匹配或超越多步扩散基线。
可扩展的架构：兼容现有的卷积和 Transformer 主干，易于集成到当前的生成流水线中。

方法论

分离输出与损失空间
- 输出：网络被训练来预测最终图像 x（即低维图像流形上的点）。
- 损失：作者没有使用像素级 L2 损失，而是在速度空间定义了 MeanFlow 损失，用来衡量预测图像的平均像素运动与从数据分布得到的真实流场之间的对齐程度。
MeanFlow 变换
- 对于任意图像 x，他们计算一个 平均速度场 v = M(x)，该场捕获从参考分布到达 x 所需的像素变化方向和幅度。
- 逆映射 M⁻¹(v) 能从速度场重建图像，确保双射关系，使训练保持稳定。
训练流程
- 随机采样噪声图像 z。
- 将 z 输入生成器，得到候选图像 x̂。
- 计算 v̂ = M(x̂) 并使用速度空间中的简单 L2 损失将其与目标速度 v* = M(x_real) 进行比较。
- 反向传播该损失以更新生成器；不需要迭代细化或潜在编码器。
网络设计
- 作者使用了标准的 UNet 风格主干网络并加入注意力块，但核心思想可以适用于任何能够将噪声映射到像素空间的架构。

Source: …

结果与发现

分辨率	FID（越低越好）	对比（基线）
256×256	2.22	Diffusion（多步）≈2.5
512×512	2.48	Diffusion（多步）≈2.8

速度：生成时间从约 1 秒（50 步 diffusion）降至单个 GPU 上 <10 毫秒，提升超过 100 倍。
质量：目视检查显示纹理清晰、类别语义忠实，堪比最先进的 diffusion 模型。
稳定性：训练在约 300 k 次迭代后收敛，尽管损失函数形式截然不同，但与传统 diffusion 训练相似。

实际意义

实时内容创作: 开发者可以将高质量图像合成直接嵌入交互式应用（例如游戏资产生成、UI 原型）中，而无需等待多步采样。
边缘部署: 单步特性降低了内存带宽和计算周期，使其能够在消费级 GPU、移动 SoC，甚至 WebGPU 环境中运行。
简化流水线: 无需单独的潜在编码器、调度器设计或采样启发式——只需一次前向传播。这降低了提供按需图像生成的 SaaS 平台的工程开销。
成本降低: 当每个请求的耗时从秒级降至毫秒级时，云推理成本显著下降，从而实现生成服务的可扩展 API。
下游任务的基础: 速度场视角可用于图像编辑、风格迁移或视频帧插值等场景，在这些场景中控制像素运动非常有价值。

限制与未来工作

训练数据依赖：MeanFlow 映射是从训练分布中学习得到的；分布外的提示仍可能出现模式崩溃或伪影。
受限的条件控制：当前的表述侧重于无条件生成；将 pMF 扩展到文本到图像或类别条件设置需要额外的条件机制。
理论保证：虽然图像空间与速度空间之间的双射映射在实验中表现良好，但其表达能力和可逆性的严格分析仍留待未来研究。
更广泛的基准测试：实验仅限于 ImageNet；在特定领域数据集（例如医学影像、卫星数据）上进行评估将检验该方法的通用性。

总体而言，Pixel MeanFlow 标志着向超快速、高保真生成模型迈出的重要一步，开发者可以轻松采用它来构建下一代 AI 驱动的视觉工具。

作者

Yiyang Lu
Susie Lu
Qiao Sun
Hanhong Zhao
Zhicheng Jiang
Xianbang Wang
Tianhong Li
Zhengyang Geng
Kaiming He

论文信息

arXiv ID: 2601.22158v1
分类: cs.CV
发表时间: 2026年1月29日
PDF: 下载 PDF

[Paper] 使用 Pixel Mean Flows 的一步 Latent-free 图像生成

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] UEval：统一多模态生成基准

[Paper] DynamicVLA：用于动态对象操作的视觉-语言-动作模型

[Paper] VLM是感知还是回忆？使用经典视觉错觉探究视觉感知与记忆

[Paper] JUST-DUB-IT：通过 Joint Audio-Visual Diffusion 实现视频配音