[Paper] 视觉生成调优

发布: (2025年11月29日 GMT+8 02:57)
6 min read
原文: arXiv

Source: arXiv - 2511.23469v1

概览

本文提出了 Visual Generation Tuning (VGT),一种轻量级微调方案,可在任何原本仅用于多模态理解的大型视觉语言模型(VLM)中解锁图像生成能力。通过复用预训练期间学习到的丰富语义编码器,VGT 规避了昂贵的像素级自编码器,并将自回归生成速度提升至 20×,同时实现了业界领先的图像合成质量。

主要贡献

  • 统一的生成流水线: 证明了预训练的 VLM 可以在不重新设计整体架构的情况下用于视觉生成。
  • VGT‑AE 设计: 用一种 语义对齐 的潜在表示取代传统 VAE 风格的潜在空间,该表示通过将 VLM 编码器与轻量像素解码器匹配得到。
  • 效率提升: 与依赖独立像素级 VAE 的扩散式 Transformer 相比,实现了 20–28× 的训练收敛速度提升。
  • 强劲的实证结果:
    • 图像重建:在 28× 压缩比下达到 26.67 PSNR0.50 rFID,优于专用 VAE。
    • 自回归生成:取得 0.77 GenEval78.73 DPG‑Bench,在可比的 AR 模型中表现最佳。
  • 可扩展性与通用性: 证明 VGT 可应用于多种现有 VLM,为真正统一的多模态基础模型铺平道路。

方法论

  1. 从预训练的 VLM 出发(例如 CLIP‑style 模型),该模型已将图像和文本映射到共享的语义空间。
  2. 引入轻量像素解码器(一个浅层 CNN,将潜在向量映射回 RGB 图像)。
  3. 通过简单的重建损失 将 VLM 的语义编码器与解码器的潜在空间对齐,实质上将编码器转变为 视觉生成器(即 VGT‑AE)。
  4. 在这些对齐的潜在上训练自回归 Transformer,对连续空间中的图像 token 分布建模。
  5. 仅微调新组件(解码器 + Transformer),其余大部分原始 VLM 冻结,从而大幅降低计算和数据需求。

关键洞见在于,VLM 编码器中嵌入的语义知识已经捕获了高级视觉结构;只需将其与一个适度的解码器对齐,即可在生成任务中恢复像素级细节。

结果与发现

任务指标VGT(本工作)先前工作
图像重建(压缩 28×)PSNR26.67~24–25
rFID0.50>0.7
自回归图像合成GenEval0.770.68–0.73
DPG‑Bench78.7370–75
  • 训练速度: 收敛所需步数约为依赖独立 VAE 的扩散式 Transformer 的 1/20
  • 质量与压缩的关系: 即使在高压缩比下,VGT 仍能保留细节,表明语义编码器保存的信息量超过传统 VAE。
  • 可扩展性: 对 VLM 大小(从 300 M 到 1 B 参数)的实验显示出一致的提升,暗示该方法能从更大的基础模型中受益。

实际意义

  • 快速原型化生成特性: 企业可以在现有多模态服务(如图像描述、视觉检索)上直接添加图像生成能力,无需从头训练庞大的扩散模型。
  • 降低基础设施成本: 20× 更快的收敛速度转化为更少的 GPU 时长和能耗,使生成式 AI 对初创公司和边缘部署更为友好。
  • 统一 API: 单一 VLM 现在既能处理理解任务(分类、检索),也能执行创作任务(合成、编辑),简化产品流水线并降低模型管理开销。
  • 下游工具的潜力: 文本到图像助手、设计草图生成器、数据增强流水线等均可利用 VGT 增强的 VLM,实现更高保真度且资源需求更低的输出。

局限性与未来工作

  • 像素解码器的简易性: 当前解码器刻意保持轻量;更复杂的解码器或许能进一步提升保真度,但可能削弱效率优势。
  • 对预训练 VLM 质量的依赖: 若基础 VLM 的视觉语义较弱,VGT 的生成质量会受影响,凸显强大基础模型的重要性。
  • 评估范围: 基准主要聚焦于重建和通用图像合成;将 VGT 应用于特定领域生成(如医学影像、3‑D 资产)仍是未解之题。
  • 未来方向: 作者建议探索 VGT 与扩散过程的更紧密结合、将范式扩展至视频生成,以及研究多模态提示(文本 + 草图)以进一步丰富统一模型的能力。

作者

  • Jiahao Guo
  • Sinan Du
  • Jingfeng Yao
  • Wenyu Liu
  • Bo Li
  • Haoxiang Cao
  • Kun Gai
  • Chun Yuan
  • Kai Wu
  • Xinggang Wang

论文信息

  • arXiv ID: 2511.23469v1
  • 分类: cs.CV
  • 发布日期: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »