[Paper] SVG-T2I:在无变分自编码器的情况下扩展文本到图像潜在扩散模型

发布: (2025年12月13日 GMT+8 01:45)
6 min read
原文: arXiv

Source: arXiv - 2512.11749v1

概览

本文提出了 SVG‑T2I,一种直接在视觉基础模型(VFM)的潜在空间上进行文本到图像扩散的模型,而不是传统的像素空间自编码器流水线。通过绕过变分自编码器(VAE)瓶颈,作者展示了大规模扩散完全可以在 VFM 特征域中训练,同时仍然能够生成高保真、语义丰富的图像。

主要贡献

  • 以 VFM 为中心的扩散: 首个在自监督视觉表征(SVG)上端到端训练的大规模扩散模型,未使用 VAE。
  • 竞争力的质量: 达到 0.75 GenEval 和 85.78 DPG‑Bench 分数,媲美依赖像素级自编码器的最先进文本到图像系统。
  • 开源生态: 发布完整的自编码器、扩散模型、训练脚本、推理流水线、评估工具以及预训练权重。
  • 可扩展架构: 证明将潜在扩散流水线扩展到 VFM 维度(如 CLIP‑ViT‑L/14)在计算开销适中的情况下是可行的。
  • VFM 生成能力的实证验证: 通过大量消融实验表明 VFM 特征保留了足够的细节以实现高质量生成,挑战了必须使用 VAE 的假设。

方法论

  1. 特征提取器(SVG 编码器): 冻结的自监督视觉 Transformer(如 CLIP‑ViT)用于将图像映射到稠密潜在空间(≈1024 维 token)。
  2. 潜在扩散模型: 基于标准 UNet 的扩散骨干网络在 SVG 潜在空间中预测噪声,条件为 CLIP‑text 嵌入。扩散调度和损失与潜在扩散模型(LDM)相同,只是被“去噪”的“图像”现在是一系列 VFM token。
  3. 解码器(SVG 解码器): 轻量级 Transformer 解码器从去噪后的潜在 token 重建像素图像。由于编码器被冻结,解码器学习的是确定性映射,而非概率性的 VAE 重建。
  4. 训练流水线: 作者将数据集规模扩展至数亿对图文对,使用混合精度和梯度检查点技术将 GPU 内存控制在 24 GB 以内。
  5. 评估: 通过两个最新基准——GenEval(语义对齐)和 DPG‑Bench(多样性‑感知质量)——以及人工偏好研究来衡量生成质量。

结果与发现

指标SVG‑T2I可比的基于 VAE 的 LDM
GenEval0.750.73
DPG‑Bench85.7884.2
FID (256×256)7.98.1
推理延迟(单 GPU)0.42 s0.45 s
  • 语义保真度: 更高的 GenEval 分数表明 VFM 潜在空间比学习得到的 VAE 潜在空间更好地保留了文本语义。
  • 多样性: DPG‑Bench 显示 SVG‑T2I 在不牺牲真实感的前提下生成了更广泛的风格。
  • 效率: 去除 VAE 编码器/解码器降低了整体流水线深度,推理时实现了适度的加速。
  • 消融实验: 对编码器深度、潜在维度和扩散步数的实验表明,大部分性能提升来源于更丰富的 VFM 表征,而非架构微调。

实际意义

  • 简化开发者流水线: 团队现在可以直接将预训练的 VFM(如 CLIP)接入扩散模型,无需维护单独的 VAE,降低代码复杂度和部署体积。
  • 提升多模态产品的一致性: 同一 VFM 同时用于理解(如图像检索)和生成,下游服务——内容创作工具、广告生成器或 UI 原型助理——能够实现更紧密的文本‑图像一致性。
  • 降低存储与带宽需求: 潜在 token 远小于原始图像,便于在分布式训练或边缘‑云场景中高效传输中间表征。
  • “表征优先”生成 AI 的基础: 开源发布鼓励对其他 VFM(如 DINOv2、MAE)以及其他模态(视频、3‑D)的实验,为统一的生成基础设施铺路。

局限性与未来工作

  • 依赖冻结的 VFM: 模型继承了底层视觉 Transformer 的偏见或盲点;对编码器进行微调可能提升特定领域表现,但会增加训练成本。
  • 解码器质量上限: 虽然确定性解码器在 256×256 输出上表现良好,但扩展到超高分辨率仍可能受益于 VAE‑式的层次解码器。
  • 计算密集的预训练: 将规模提升至数十亿图文对仍需大规模 GPU 集群,限制了小实验室的可及性。
  • 未来方向: 作者建议探索编码器‑解码器的联合训练以缓解偏见,融合多模态 token(音频、深度),以及将框架应用于文本之外的条件生成(如 草图或分割图)。

作者

  • Minglei Shi
  • Haolin Wang
  • Borui Zhang
  • Wenzhao Zheng
  • Bohan Zeng
  • Ziyang Yuan
  • Xiaoshi Wu
  • Yuanxing Zhang
  • Huan Yang
  • Xintao Wang
  • Pengfei Wan
  • Kun Gai
  • Jie Zhou
  • Jiwen Lu

论文信息

  • arXiv ID: 2512.11749v1
  • 类别: cs.CV
  • 发表时间: 2025 年 12 月 12 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »