[Paper] NanoFLUX:蒸馏驱动的压缩大型文本到图像生成模型用于移动设备

发布: (2026年2月7日 GMT+8 01:05)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.06879v1

概览

本文提出了 NanoFLUX,一种紧凑的 2.4 B 参数文本到图像生成模型,可在现代智能手机上仅用几秒钟运行。通过对 17 B 参数扩散模型(FLUX.1‑Schnell)进行蒸馏,并采用一系列巧妙的压缩技巧,作者弥合了最先进视觉合成与设备端部署之间的差距。

关键贡献

  • 渐进式模型压缩:将扩散 Transformer 从 12 B 参数削减至约 2 B 参数,同时保持视觉保真度。
  • 基于 ResNet 的 token 下采样,使早期 Transformer 块在更低分辨率的 token 图上工作,降低延迟且不牺牲最终图像质量。
  • 文本编码器蒸馏,将去噪器早期层的视觉线索注入语言表征,提升文本‑图像对齐。
  • 真实场景基准:在典型移动设备上生成 512 × 512 图像约需 2.5 秒,这是高分辨率扩散模型首次实现设备端运行。

方法论

  1. Teacher‑Student Distillation – 大型 FLUX.1‑Schnell 模型(“教师”)生成参考图像和中间去噪特征。较小的“学生”网络学习模仿最终输出和中间动态,保持扩散过程的表达能力。

  2. Transformer Pruning – 通过敏感性分析识别冗余的注意力头和前馈维度并将其移除。这将 Transformer 的参数量从 12 B 降至约 2 B,同时保留最具信息量的通路。

  3. ResNet Token Down‑Sampler – 在前几层 Transformer 之前,轻量级 ResNet 将空间 token 分辨率降低(例如,从 64 × 64 降至 32 × 32)。后续层再将 token 上采样回原尺寸,使大部分计算在更小的表示上进行。

  4. Cross‑Modal Text Encoder Distillation – 文本编码器不仅在语言数据上进行训练,还学习预测从早期去噪层提取的视觉特征。这使文本嵌入更紧密地与视觉生成流水线对齐,提升提示词的遵循度。

  5. Progressive Fine‑Tuning – 在每个压缩步骤后,模型在原始扩散训练集上进行微调,以恢复可能失去的质量,形成从教师到最终学生的平滑“压缩阶梯”。

结果与发现

  • Speed: 512 × 512 图像生成在旗舰 Android 手机(Snapdragon 8 Gen 2)上使用单个 GPU 核心,耗时约 ≈2.5 s
  • Quality: 人类评估和 CLIP‑based 相似度得分显示,仅比 17 B teacher 下降约 ≈5 %,对大多数消费者使用场景几乎不可感知。
  • Parameter Efficiency: 最终模型压缩后占用约 ~2 GB 存储空间,能够轻松适配典型的移动设备内存预算。
  • Ablation: 移除 token down‑sampler 会导致 latency 增加约 40 %,而质量提升微乎其微;省略 text‑encoder distillation 则会导致提示忠实度明显下降(≈12 % lower CLIP‑score)。

Source:

实际意义

  • On‑Device Creative Apps – 开发者可以将高分辨率的文本到图像生成直接嵌入到照片编辑器、AR 滤镜或社交媒体贴纸中,无需依赖云端 API,从而降低延迟并保护用户隐私。
  • Edge‑AI Services – 企业可以在边缘设备上部署个性化内容生成(例如营销视觉、产品模型),降低带宽成本并实现离线运行。
  • Rapid Prototyping – 该压缩流水线可以适配其他扩散模型(如视频或 3‑D 生成),为将更多生成式 AI 能力带到边缘提供路线图。
  • Energy Efficiency – 本地运行避免了将数据传输到服务器的能耗开销,这对电池受限的设备尤为重要。

限制与未来工作

  • 硬件依赖 – 报告的 2.5 s 延迟假设使用高端移动 GPU;低阶设备的性能会更慢。
  • 分辨率上限 – 虽然 512 × 512 已经很出色,但扩展到 1024 × 1024 仍然需要云资源。
  • 泛化能力 – 该模型在与 FLUX.1‑Schnell 相同的数据分布上进行蒸馏;在域外提示上的性能可能下降。
  • 未来方向 – 作者建议探索量化感知训练、混合精度推理,并将 token‑down‑sampling 概念扩展到多模态扩散管线(例如文本到视频)。

作者

  • Ruchika Chavhan
  • Malcolm Chadwick
  • Alberto Gil Couto Pimentel Ramos
  • Luca Morreale
  • Mehdi Noroozi
  • Abhinav Mehrotra

论文信息

  • arXiv ID: 2602.06879v1
  • 分类: cs.CV, cs.AI
  • 出版日期: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »