[Paper] 视觉生成调优
发布: (2025年11月29日 GMT+8 02:57)
6 min read
原文: arXiv
Source: arXiv - 2511.23469v1
概览
本文提出了 Visual Generation Tuning (VGT),一种轻量级微调方案,可在任何原本仅用于多模态理解的大型视觉语言模型(VLM)中解锁图像生成能力。通过复用预训练期间学习到的丰富语义编码器,VGT 规避了昂贵的像素级自编码器,并将自回归生成速度提升至 20×,同时实现了业界领先的图像合成质量。
主要贡献
- 统一的生成流水线: 证明了预训练的 VLM 可以在不重新设计整体架构的情况下用于视觉生成。
- VGT‑AE 设计: 用一种 语义对齐 的潜在表示取代传统 VAE 风格的潜在空间,该表示通过将 VLM 编码器与轻量像素解码器匹配得到。
- 效率提升: 与依赖独立像素级 VAE 的扩散式 Transformer 相比,实现了 20–28× 的训练收敛速度提升。
- 强劲的实证结果:
- 图像重建:在 28× 压缩比下达到 26.67 PSNR 和 0.50 rFID,优于专用 VAE。
- 自回归生成:取得 0.77 GenEval 和 78.73 DPG‑Bench,在可比的 AR 模型中表现最佳。
- 可扩展性与通用性: 证明 VGT 可应用于多种现有 VLM,为真正统一的多模态基础模型铺平道路。
方法论
- 从预训练的 VLM 出发(例如 CLIP‑style 模型),该模型已将图像和文本映射到共享的语义空间。
- 引入轻量像素解码器(一个浅层 CNN,将潜在向量映射回 RGB 图像)。
- 通过简单的重建损失 将 VLM 的语义编码器与解码器的潜在空间对齐,实质上将编码器转变为 视觉生成器(即 VGT‑AE)。
- 在这些对齐的潜在上训练自回归 Transformer,对连续空间中的图像 token 分布建模。
- 仅微调新组件(解码器 + Transformer),其余大部分原始 VLM 冻结,从而大幅降低计算和数据需求。
关键洞见在于,VLM 编码器中嵌入的语义知识已经捕获了高级视觉结构;只需将其与一个适度的解码器对齐,即可在生成任务中恢复像素级细节。
结果与发现
| 任务 | 指标 | VGT(本工作) | 先前工作 |
|---|---|---|---|
| 图像重建(压缩 28×) | PSNR | 26.67 | ~24–25 |
| rFID | 0.50 | >0.7 | |
| 自回归图像合成 | GenEval | 0.77 | 0.68–0.73 |
| DPG‑Bench | 78.73 | 70–75 |
- 训练速度: 收敛所需步数约为依赖独立 VAE 的扩散式 Transformer 的 1/20。
- 质量与压缩的关系: 即使在高压缩比下,VGT 仍能保留细节,表明语义编码器保存的信息量超过传统 VAE。
- 可扩展性: 对 VLM 大小(从 300 M 到 1 B 参数)的实验显示出一致的提升,暗示该方法能从更大的基础模型中受益。
实际意义
- 快速原型化生成特性: 企业可以在现有多模态服务(如图像描述、视觉检索)上直接添加图像生成能力,无需从头训练庞大的扩散模型。
- 降低基础设施成本: 20× 更快的收敛速度转化为更少的 GPU 时长和能耗,使生成式 AI 对初创公司和边缘部署更为友好。
- 统一 API: 单一 VLM 现在既能处理理解任务(分类、检索),也能执行创作任务(合成、编辑),简化产品流水线并降低模型管理开销。
- 下游工具的潜力: 文本到图像助手、设计草图生成器、数据增强流水线等均可利用 VGT 增强的 VLM,实现更高保真度且资源需求更低的输出。
局限性与未来工作
- 像素解码器的简易性: 当前解码器刻意保持轻量;更复杂的解码器或许能进一步提升保真度,但可能削弱效率优势。
- 对预训练 VLM 质量的依赖: 若基础 VLM 的视觉语义较弱,VGT 的生成质量会受影响,凸显强大基础模型的重要性。
- 评估范围: 基准主要聚焦于重建和通用图像合成;将 VGT 应用于特定领域生成(如医学影像、3‑D 资产)仍是未解之题。
- 未来方向: 作者建议探索 VGT 与扩散过程的更紧密结合、将范式扩展至视频生成,以及研究多模态提示(文本 + 草图)以进一步丰富统一模型的能力。
作者
- Jiahao Guo
- Sinan Du
- Jingfeng Yao
- Wenyu Liu
- Bo Li
- Haoxiang Cao
- Kun Gai
- Chun Yuan
- Kai Wu
- Xinggang Wang
论文信息
- arXiv ID: 2511.23469v1
- 分类: cs.CV
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF