[Paper] 单层足够：适配预训练视觉编码器用于图像生成

发布: 1天前 (2025年12月9日 GMT+8 02:57)

7 min read

原文: arXiv

Source: arXiv - 2512.07829v1

概览

本文提出了 FAE（特征自编码器），一种轻量级框架，能够将任意高质量的预训练视觉编码器（如 DINO、SigLIP）插入到现代图像生成模型中，如扩散模型或归一化流模型。通过仅使用单层注意力层来桥接高维“易理解”特征与低维“易生成”潜在空间之间的差距，FAE 在显著简化适配流程的同时，实现了最先进的图像质量。

关键贡献

单层适配： 证明单个注意力层即可将预训练特征压缩到生成就绪的潜在空间。
双解码器架构： 将重建解码器（保持原始特征语义）与生成解码器（合成图像）相耦合，实现无需复杂损失的联合训练。
编码器无关设计： 兼容多种自监督编码器（DINO、SigLIP 等），使该方法可在不同项目中复用。
模型无关集成： 在扩散模型和归一化流生成器上均有演示，证明了方法的灵活性。
强劲的实证结果： 在 ImageNet‑256 上取得接近最先进的 FID 分数（使用分类器自由引导时 1.29，未使用时 1.48），且训练轮数远少于典型基线。

方法论

预训练特征提取 – 冻结的视觉编码器处理输入图像，输出高维特征图（例如 768 维的 DINO token）。
特征自编码器（FAE） –
- 压缩层： 单个多头注意力模块将特征图降至低维潜在空间（例如 64 维）。
- 重建解码器： 接收压缩后的潜在，扩展回原始维度，并通过 L2 损失尝试重建原始特征图。
- 生成解码器： 使用相同的重建特征作为输入，送入下游生成模型（扩散或流），生成最终图像。
联合训练 – 两个解码器同步训练。重建损失保证潜在保持预训练语义，生成损失（如扩散去噪目标）确保潜在适用于高质量合成。
即插即用： 由于编码器保持冻结且压缩层体积极小，换用不同的预训练编码器或不同的生成器仅需少量重新初始化。

结果与发现

数据集 / 设置	模型	是否使用 CFG	FID（800 轮）	FID（80 轮）
ImageNet‑256	Diffusion + FAE	是	1.29（接近 SOTA）	1.70
ImageNet‑256	Diffusion + FAE	否	1.48（SOTA）	2.08

快速收敛： 即使仅训练 80 轮，FAE 也能达到竞争性的 FID 分数，凸显了复用预训练表征的效率。
任务鲁棒性： 同一流水线可用于类别条件生成和文本到图像设置，展示了其通用性。
低开销： 添加单层注意力层相较于完整生成器几乎不增加参数和计算量，却带来显著的质量提升。

实际意义

快速原型： 团队可以直接利用已有的自监督视觉模型，而无需从头训练编码器，显著缩短开发周期。
资源高效训练： 由于大部分视觉知识保持冻结，训练预算主要用于生成部分，使得在普通 GPU 环境下也能获得高质量结果。
模块化流水线： FAE 的即插即用特性与现有机器学习基础设施契合——可在不重新设计系统的前提下替换为更新的编码器（如基于 CLIP 的）或不同的扩散骨干。
更好的下游控制： 通过重建解码器保留原始特征语义，可用于条件生成、风格迁移或编辑任务，确保语义一致性。

局限性与未来工作

冻结编码器假设： 当前设计保持预训练编码器固定；若与生成器共同微调可能进一步提升性能，但本文未探索。
潜在维度权衡： 虽然单层注意力已表现良好，但最佳潜在大小可能随数据集和生成器而异；自动调优留待后续研究。
基准范围： 实验主要聚焦于 ImageNet‑256 及少数文本到图像设置；在更高分辨率数据集（如 LSUN、COCO）以及其他生成家族（GAN、VQ‑VAE）上的更广泛评估将进一步验证本文主张。
压缩潜在的可解释性： 了解单层压缩后保留了多少语义信息仍是未解之谜，这将有助于构建更具可解释性的生成流水线。

FAE 表明，连接强大视觉编码器与生成模型并不需要笨重的适配器——有时，只需一个恰到好处的注意力层即可。

作者

Yuan Gao
Chen Chen
Tianrong Chen
Jiatao Gu

论文信息

arXiv ID: 2512.07829v1
分类: cs.CV, cs.AI
发布日期: 2025 年 12 月 8 日
PDF: Download PDF

[Paper] 单层足够：适配预训练视觉编码器用于图像生成

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Astra: 通用交互式世界模型与自回归去噪

[Paper] 无标签，无问题：使用多模态验证器训练视觉推理器

[Paper] MatteViT：高频感知文档阴影去除与阴影遮罩引导

[Paper] 条件形态发生：通过 Neural Cellular Automata 的自发生成结构数字