[Paper] 单层足够:适配预训练视觉编码器用于图像生成
发布: (2025年12月9日 GMT+8 02:57)
7 min read
原文: arXiv
Source: arXiv - 2512.07829v1
概览
本文提出了 FAE(特征自编码器),一种轻量级框架,能够将任意高质量的预训练视觉编码器(如 DINO、SigLIP)插入到现代图像生成模型中,如扩散模型或归一化流模型。通过仅使用单层注意力层来桥接高维“易理解”特征与低维“易生成”潜在空间之间的差距,FAE 在显著简化适配流程的同时,实现了最先进的图像质量。
关键贡献
- 单层适配: 证明单个注意力层即可将预训练特征压缩到生成就绪的潜在空间。
- 双解码器架构: 将重建解码器(保持原始特征语义)与生成解码器(合成图像)相耦合,实现无需复杂损失的联合训练。
- 编码器无关设计: 兼容多种自监督编码器(DINO、SigLIP 等),使该方法可在不同项目中复用。
- 模型无关集成: 在扩散模型和归一化流生成器上均有演示,证明了方法的灵活性。
- 强劲的实证结果: 在 ImageNet‑256 上取得接近最先进的 FID 分数(使用分类器自由引导时 1.29,未使用时 1.48),且训练轮数远少于典型基线。
方法论
- 预训练特征提取 – 冻结的视觉编码器处理输入图像,输出高维特征图(例如 768 维的 DINO token)。
- 特征自编码器(FAE) –
- 压缩层: 单个多头注意力模块将特征图降至低维潜在空间(例如 64 维)。
- 重建解码器: 接收压缩后的潜在,扩展回原始维度,并通过 L2 损失尝试重建原始特征图。
- 生成解码器: 使用相同的重建特征作为输入,送入下游生成模型(扩散或流),生成最终图像。
- 联合训练 – 两个解码器同步训练。重建损失保证潜在保持预训练语义,生成损失(如扩散去噪目标)确保潜在适用于高质量合成。
- 即插即用: 由于编码器保持冻结且压缩层体积极小,换用不同的预训练编码器或不同的生成器仅需少量重新初始化。
结果与发现
| 数据集 / 设置 | 模型 | 是否使用 CFG | FID(800 轮) | FID(80 轮) |
|---|---|---|---|---|
| ImageNet‑256 | Diffusion + FAE | 是 | 1.29(接近 SOTA) | 1.70 |
| ImageNet‑256 | Diffusion + FAE | 否 | 1.48(SOTA) | 2.08 |
- 快速收敛: 即使仅训练 80 轮,FAE 也能达到竞争性的 FID 分数,凸显了复用预训练表征的效率。
- 任务鲁棒性: 同一流水线可用于类别条件生成和文本到图像设置,展示了其通用性。
- 低开销: 添加单层注意力层相较于完整生成器几乎不增加参数和计算量,却带来显著的质量提升。
实际意义
- 快速原型: 团队可以直接利用已有的自监督视觉模型,而无需从头训练编码器,显著缩短开发周期。
- 资源高效训练: 由于大部分视觉知识保持冻结,训练预算主要用于生成部分,使得在普通 GPU 环境下也能获得高质量结果。
- 模块化流水线: FAE 的即插即用特性与现有机器学习基础设施契合——可在不重新设计系统的前提下替换为更新的编码器(如基于 CLIP 的)或不同的扩散骨干。
- 更好的下游控制: 通过重建解码器保留原始特征语义,可用于条件生成、风格迁移或编辑任务,确保语义一致性。
局限性与未来工作
- 冻结编码器假设: 当前设计保持预训练编码器固定;若与生成器共同微调可能进一步提升性能,但本文未探索。
- 潜在维度权衡: 虽然单层注意力已表现良好,但最佳潜在大小可能随数据集和生成器而异;自动调优留待后续研究。
- 基准范围: 实验主要聚焦于 ImageNet‑256 及少数文本到图像设置;在更高分辨率数据集(如 LSUN、COCO)以及其他生成家族(GAN、VQ‑VAE)上的更广泛评估将进一步验证本文主张。
- 压缩潜在的可解释性: 了解单层压缩后保留了多少语义信息仍是未解之谜,这将有助于构建更具可解释性的生成流水线。
FAE 表明,连接强大视觉编码器与生成模型并不需要笨重的适配器——有时,只需一个恰到好处的注意力层即可。
作者
- Yuan Gao
- Chen Chen
- Tianrong Chen
- Jiatao Gu
论文信息
- arXiv ID: 2512.07829v1
- 分类: cs.CV, cs.AI
- 发布日期: 2025 年 12 月 8 日
- PDF: Download PDF