[Paper] 视觉生成调优

发布: 2个月前 (2025年11月29日 GMT+8 02:57)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.23469v1

概览

本文提出了 Visual Generation Tuning (VGT)，一种轻量级微调方案，可在任何原本仅用于多模态理解的大型视觉语言模型（VLM）中解锁图像生成能力。通过复用预训练期间学习到的丰富语义编码器，VGT 规避了昂贵的像素级自编码器，并将自回归生成速度提升至 20×，同时实现了业界领先的图像合成质量。

主要贡献

统一的生成流水线： 证明了预训练的 VLM 可以在不重新设计整体架构的情况下用于视觉生成。
VGT‑AE 设计： 用一种 语义对齐 的潜在表示取代传统 VAE 风格的潜在空间，该表示通过将 VLM 编码器与轻量像素解码器匹配得到。
效率提升： 与依赖独立像素级 VAE 的扩散式 Transformer 相比，实现了 20–28× 的训练收敛速度提升。
强劲的实证结果：
- 图像重建：在 28× 压缩比下达到 26.67 PSNR 和 0.50 rFID，优于专用 VAE。
- 自回归生成：取得 0.77 GenEval 和 78.73 DPG‑Bench，在可比的 AR 模型中表现最佳。
可扩展性与通用性： 证明 VGT 可应用于多种现有 VLM，为真正统一的多模态基础模型铺平道路。

方法论

从预训练的 VLM 出发（例如 CLIP‑style 模型），该模型已将图像和文本映射到共享的语义空间。
引入轻量像素解码器（一个浅层 CNN，将潜在向量映射回 RGB 图像）。
通过简单的重建损失 将 VLM 的语义编码器与解码器的潜在空间对齐，实质上将编码器转变为 视觉生成器（即 VGT‑AE）。
在这些对齐的潜在上训练自回归 Transformer，对连续空间中的图像 token 分布建模。
仅微调新组件（解码器 + Transformer），其余大部分原始 VLM 冻结，从而大幅降低计算和数据需求。

关键洞见在于，VLM 编码器中嵌入的语义知识已经捕获了高级视觉结构；只需将其与一个适度的解码器对齐，即可在生成任务中恢复像素级细节。

结果与发现

任务	指标	VGT（本工作）	先前工作
图像重建（压缩 28×）	PSNR	26.67	~24–25
	rFID	0.50	>0.7
自回归图像合成	GenEval	0.77	0.68–0.73
	DPG‑Bench	78.73	70–75

训练速度： 收敛所需步数约为依赖独立 VAE 的扩散式 Transformer 的 1/20。
质量与压缩的关系： 即使在高压缩比下，VGT 仍能保留细节，表明语义编码器保存的信息量超过传统 VAE。
可扩展性： 对 VLM 大小（从 300 M 到 1 B 参数）的实验显示出一致的提升，暗示该方法能从更大的基础模型中受益。

实际意义

快速原型化生成特性： 企业可以在现有多模态服务（如图像描述、视觉检索）上直接添加图像生成能力，无需从头训练庞大的扩散模型。
降低基础设施成本： 20× 更快的收敛速度转化为更少的 GPU 时长和能耗，使生成式 AI 对初创公司和边缘部署更为友好。
统一 API： 单一 VLM 现在既能处理理解任务（分类、检索），也能执行创作任务（合成、编辑），简化产品流水线并降低模型管理开销。
下游工具的潜力： 文本到图像助手、设计草图生成器、数据增强流水线等均可利用 VGT 增强的 VLM，实现更高保真度且资源需求更低的输出。

局限性与未来工作

像素解码器的简易性： 当前解码器刻意保持轻量；更复杂的解码器或许能进一步提升保真度，但可能削弱效率优势。
对预训练 VLM 质量的依赖： 若基础 VLM 的视觉语义较弱，VGT 的生成质量会受影响，凸显强大基础模型的重要性。
评估范围： 基准主要聚焦于重建和通用图像合成；将 VGT 应用于特定领域生成（如医学影像、3‑D 资产）仍是未解之题。
未来方向： 作者建议探索 VGT 与扩散过程的更紧密结合、将范式扩展至视频生成，以及研究多模态提示（文本 + 草图）以进一步丰富统一模型的能力。

作者

Jiahao Guo
Sinan Du
Jingfeng Yao
Wenyu Liu
Bo Li
Haoxiang Cao
Kun Gai
Chun Yuan
Kai Wu
Xinggang Wang

论文信息

arXiv ID: 2511.23469v1
分类: cs.CV
发布日期: 2025 年 11 月 28 日
PDF: Download PDF

[Paper] 视觉生成调优

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Video‑R2：强化多模态语言模型中的一致且有根基的推理

[Paper] Video-CoM：通过操作链进行交互式视频推理

[Paper] AnyTalker：通过交互细化实现多人物说话视频生成的规模化

[Paper] 面向对象的数据合成用于类别级目标检测