[Paper] 改进的 Mean Flows:关于 Fastforward 生成模型的挑战
Source: arXiv - 2512.02012v1
概述
本文提出 Improved MeanFlow (iMF),一种对 fast‑forward(单步)生成模型的新实现,克服了原始 MeanFlow 框架中的两个长期存在的难题:不稳定的训练目标和僵硬的引导机制。通过将损失重新定义为瞬时速度场,并将引导视为灵活的条件输入,iMF 在仅一次函数评估下实现了 FID 为 1.72 的 ImageNet‑256 结果——在保持模型规模适中的同时,匹配或超越了许多多步扩散模型。
关键贡献
- 重新参数化的训练目标:从依赖网络输出的损失转为对瞬时速度 (v) 的直接回归,提升了训练稳定性。
- 显式、灵活的引导:将 classifier‑free 引导尺度视为条件变量,而非固定超参数,使得推理时可随时调节。
- 上下文条件管线:将多种条件信号(如类别标签、引导尺度)打包进单一上下文向量,降低参数量并提升性能。
- 单步最新水平结果:在 ImageNet‑256×256 上以 1‑NFE 达到 1.72 FID,缩小了与多步扩散模型的质量差距,且未使用任何蒸馏技巧。
- 从头完全训练:证明 fast‑forward 模型在无需预训练扩散检查点的情况下也能具备竞争力。
方法论
-
MeanFlow 背景 – 传统 MeanFlow 预测一个 平均 速度场 (u),该场在单位时间步积分后即可实现从噪声到数据的 fast‑forward 转换。原始公式将损失与网络自身输出耦合,导致优化过程噪声大。
-
瞬时速度损失 – iMF 引入一个独立网络来预测 瞬时 速度 (v)。训练目标变为预测的 (v) 与依据数据分布得到的真实瞬时速度之间的均方误差。这一做法将损失从模型输出中解耦,使问题转化为标准回归任务。
-
将引导视为条件 – iMF 不在训练时固定 classifier‑free 引导尺度 (γ),而是将 γ(以及其他侧信息如类别 token)作为 上下文 条件向量输入模型。推理时,开发者可以自由调节 γ,以在保真度和多样性之间进行权衡,无需重新训练。
-
模型架构 – 作者采用类似扩散模型的 UNet‑style 主干,但通过交叉注意力层注入条件向量,使单套权重能够处理多种引导设置。
-
训练方案 – 模型在 ImageNet‑256 上端到端训练,使用标准数据增强、Adam 优化器和余弦学习率调度。未采用教师‑学生蒸馏或多步预训练。
结果与发现
| 指标 | iMF (1‑NFE) | 先前的 Fast‑forward(如原始 MF) | 多步扩散(≈10‑NFE) |
|---|---|---|---|
| FID(ImageNet‑256) | 1.72 | > 3.0 | 1.5 – 2.0 |
| 采样时间(每张图) | ~ 30 ms(GPU) | ~ 30 ms | ~ 300 ms |
| 模型规模 | ~ 300 M 参数 | ~ 300 M | 500 M + |
- 训练稳定性 显著提升;损失曲线平滑且收敛速度快于原始 MF。
- 引导灵活性:在测试时调节 γ 可得到平滑的质量‑多样性曲线,这是原始 MF 所不具备的。
- 无需蒸馏:iMF 的质量可匹配依赖昂贵教师‑学生管线的扩散模型,证明单步方法完全可以独立站稳脚跟。
实际意义
- 实时图像生成:单次网络前向即可完成高保真生成,开发者可将其嵌入交互式应用(如 AI 辅助设计工具、游戏资产流水线),无需承担多步扩散的延迟。
- 动态权衡:因为引导尺度是运行时输入,服务可以向终端用户提供“质量滑块”,根据带宽或算力约束即时调节保真度。
- 降低基础设施成本:推理步数减少直接转化为 GPU 利用率下降,可实现更廉价的云部署或在高端移动 GPU 上的本地推理。
- 简化训练流水线:从头训练消除了对大型预训练扩散检查点的依赖,使组织更容易针对特定领域(如医学影像、卫星数据)训练专属 fast‑forward 模型。
- 兼容现有工具:iMF 的 UNet 主干和交叉注意力条件机制可轻松迁入主流库(PyTorch、Diffusers),改动代码量极少。
局限性与未来工作
- 向更高分辨率的可扩展性:本文仅报告至 256×256 的结果;扩展至 512×512 甚至更高可能需要架构调整或更多计算资源。
- 条件多样性:虽然已支持类别标签和引导尺度,但更丰富的模态(文本、草图等)尚未探索,集成可能面临挑战。
- 理论保证:重新表述提升了经验上的稳定性,但针对新损失的收敛性或最优性仍缺乏形式化分析。
- 基准覆盖面:评估主要聚焦于 ImageNet,若在音频、视频、3‑D 等其他领域进行测试,将更有力地验证 fast‑forward 建模的通用性。
总体而言,iMF 将 fast‑forward 生成模型从研究好奇心推向了可供开发者今日即用的实用工具。
作者
- 郑阳耿
- 陆逸阳
- 吴宗泽
- Eli Shechtman
- J. Zico Kolter
- 何恺明
论文信息
- arXiv ID: 2512.02012v1
- 分类: cs.CV, cs.LG
- 发表时间: 2025 年 12 月 1 日
- PDF: Download PDF