[Paper] 单层足够:适配预训练视觉编码器用于图像生成

发布: (2025年12月9日 GMT+8 02:57)
7 min read
原文: arXiv

Source: arXiv - 2512.07829v1

概览

本文提出了 FAE(特征自编码器),一种轻量级框架,能够将任意高质量的预训练视觉编码器(如 DINO、SigLIP)插入到现代图像生成模型中,如扩散模型或归一化流模型。通过仅使用单层注意力层来桥接高维“易理解”特征与低维“易生成”潜在空间之间的差距,FAE 在显著简化适配流程的同时,实现了最先进的图像质量。

关键贡献

  • 单层适配: 证明单个注意力层即可将预训练特征压缩到生成就绪的潜在空间。
  • 双解码器架构: 将重建解码器(保持原始特征语义)与生成解码器(合成图像)相耦合,实现无需复杂损失的联合训练。
  • 编码器无关设计: 兼容多种自监督编码器(DINO、SigLIP 等),使该方法可在不同项目中复用。
  • 模型无关集成: 在扩散模型和归一化流生成器上均有演示,证明了方法的灵活性。
  • 强劲的实证结果: 在 ImageNet‑256 上取得接近最先进的 FID 分数(使用分类器自由引导时 1.29,未使用时 1.48),且训练轮数远少于典型基线。

方法论

  1. 预训练特征提取 – 冻结的视觉编码器处理输入图像,输出高维特征图(例如 768 维的 DINO token)。
  2. 特征自编码器(FAE)
    • 压缩层: 单个多头注意力模块将特征图降至低维潜在空间(例如 64 维)。
    • 重建解码器: 接收压缩后的潜在,扩展回原始维度,并通过 L2 损失尝试重建原始特征图。
    • 生成解码器: 使用相同的重建特征作为输入,送入下游生成模型(扩散或流),生成最终图像。
  3. 联合训练 – 两个解码器同步训练。重建损失保证潜在保持预训练语义,生成损失(如扩散去噪目标)确保潜在适用于高质量合成。
  4. 即插即用: 由于编码器保持冻结且压缩层体积极小,换用不同的预训练编码器或不同的生成器仅需少量重新初始化。

结果与发现

数据集 / 设置模型是否使用 CFGFID(800 轮)FID(80 轮)
ImageNet‑256Diffusion + FAE1.29(接近 SOTA)1.70
ImageNet‑256Diffusion + FAE1.48(SOTA)2.08
  • 快速收敛: 即使仅训练 80 轮,FAE 也能达到竞争性的 FID 分数,凸显了复用预训练表征的效率。
  • 任务鲁棒性: 同一流水线可用于类别条件生成和文本到图像设置,展示了其通用性。
  • 低开销: 添加单层注意力层相较于完整生成器几乎不增加参数和计算量,却带来显著的质量提升。

实际意义

  • 快速原型: 团队可以直接利用已有的自监督视觉模型,而无需从头训练编码器,显著缩短开发周期。
  • 资源高效训练: 由于大部分视觉知识保持冻结,训练预算主要用于生成部分,使得在普通 GPU 环境下也能获得高质量结果。
  • 模块化流水线: FAE 的即插即用特性与现有机器学习基础设施契合——可在不重新设计系统的前提下替换为更新的编码器(如基于 CLIP 的)或不同的扩散骨干。
  • 更好的下游控制: 通过重建解码器保留原始特征语义,可用于条件生成、风格迁移或编辑任务,确保语义一致性。

局限性与未来工作

  • 冻结编码器假设: 当前设计保持预训练编码器固定;若与生成器共同微调可能进一步提升性能,但本文未探索。
  • 潜在维度权衡: 虽然单层注意力已表现良好,但最佳潜在大小可能随数据集和生成器而异;自动调优留待后续研究。
  • 基准范围: 实验主要聚焦于 ImageNet‑256 及少数文本到图像设置;在更高分辨率数据集(如 LSUN、COCO)以及其他生成家族(GAN、VQ‑VAE)上的更广泛评估将进一步验证本文主张。
  • 压缩潜在的可解释性: 了解单层压缩后保留了多少语义信息仍是未解之谜,这将有助于构建更具可解释性的生成流水线。

FAE 表明,连接强大视觉编码器与生成模型并不需要笨重的适配器——有时,只需一个恰到好处的注意力层即可。

作者

  • Yuan Gao
  • Chen Chen
  • Tianrong Chen
  • Jiatao Gu

论文信息

  • arXiv ID: 2512.07829v1
  • 分类: cs.CV, cs.AI
  • 发布日期: 2025 年 12 月 8 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »