[Paper] NanoFLUX：蒸馏驱动的压缩大型文本到图像生成模型用于移动设备

发布: 3天前 (2026年2月7日 GMT+8 01:05)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.06879v1

概览

本文提出了 NanoFLUX，一种紧凑的 2.4 B 参数文本到图像生成模型，可在现代智能手机上仅用几秒钟运行。通过对 17 B 参数扩散模型（FLUX.1‑Schnell）进行蒸馏，并采用一系列巧妙的压缩技巧，作者弥合了最先进视觉合成与设备端部署之间的差距。

Teacher‑Student Distillation – 大型 FLUX.1‑Schnell 模型（“教师”）生成参考图像和中间去噪特征。较小的“学生”网络学习模仿最终输出和中间动态，保持扩散过程的表达能力。
Transformer Pruning – 通过敏感性分析识别冗余的注意力头和前馈维度并将其移除。这将 Transformer 的参数量从 12 B 降至约 2 B，同时保留最具信息量的通路。
ResNet Token Down‑Sampler – 在前几层 Transformer 之前，轻量级 ResNet 将空间 token 分辨率降低（例如，从 64 × 64 降至 32 × 32）。后续层再将 token 上采样回原尺寸，使大部分计算在更小的表示上进行。
Cross‑Modal Text Encoder Distillation – 文本编码器不仅在语言数据上进行训练，还学习预测从早期去噪层提取的视觉特征。这使文本嵌入更紧密地与视觉生成流水线对齐，提升提示词的遵循度。
Progressive Fine‑Tuning – 在每个压缩步骤后，模型在原始扩散训练集上进行微调，以恢复可能失去的质量，形成从教师到最终学生的平滑“压缩阶梯”。

Speed: 512 × 512 图像生成在旗舰 Android 手机（Snapdragon 8 Gen 2）上使用单个 GPU 核心，耗时约 ≈2.5 s。
Quality: 人类评估和 CLIP‑based 相似度得分显示，仅比 17 B teacher 下降约 ≈5 %，对大多数消费者使用场景几乎不可感知。
Parameter Efficiency: 最终模型压缩后占用约 ~2 GB 存储空间，能够轻松适配典型的移动设备内存预算。
Ablation: 移除 token down‑sampler 会导致 latency 增加约 40 %，而质量提升微乎其微；省略 text‑encoder distillation 则会导致提示忠实度明显下降（≈12 % lower CLIP‑score）。

Source: …

On‑Device Creative Apps – 开发者可以将高分辨率的文本到图像生成直接嵌入到照片编辑器、AR 滤镜或社交媒体贴纸中，无需依赖云端 API，从而降低延迟并保护用户隐私。
Edge‑AI Services – 企业可以在边缘设备上部署个性化内容生成（例如营销视觉、产品模型），降低带宽成本并实现离线运行。
Rapid Prototyping – 该压缩流水线可以适配其他扩散模型（如视频或 3‑D 生成），为将更多生成式 AI 能力带到边缘提供路线图。
Energy Efficiency – 本地运行避免了将数据传输到服务器的能耗开销，这对电池受限的设备尤为重要。