[Paper] SVG-T2I:在无变分自编码器的情况下扩展文本到图像潜在扩散模型
发布: (2025年12月13日 GMT+8 01:45)
6 min read
原文: arXiv
Source: arXiv - 2512.11749v1
概览
本文提出了 SVG‑T2I,一种直接在视觉基础模型(VFM)的潜在空间上进行文本到图像扩散的模型,而不是传统的像素空间自编码器流水线。通过绕过变分自编码器(VAE)瓶颈,作者展示了大规模扩散完全可以在 VFM 特征域中训练,同时仍然能够生成高保真、语义丰富的图像。
主要贡献
- 以 VFM 为中心的扩散: 首个在自监督视觉表征(SVG)上端到端训练的大规模扩散模型,未使用 VAE。
- 竞争力的质量: 达到 0.75 GenEval 和 85.78 DPG‑Bench 分数,媲美依赖像素级自编码器的最先进文本到图像系统。
- 开源生态: 发布完整的自编码器、扩散模型、训练脚本、推理流水线、评估工具以及预训练权重。
- 可扩展架构: 证明将潜在扩散流水线扩展到 VFM 维度(如 CLIP‑ViT‑L/14)在计算开销适中的情况下是可行的。
- VFM 生成能力的实证验证: 通过大量消融实验表明 VFM 特征保留了足够的细节以实现高质量生成,挑战了必须使用 VAE 的假设。
方法论
- 特征提取器(SVG 编码器): 冻结的自监督视觉 Transformer(如 CLIP‑ViT)用于将图像映射到稠密潜在空间(≈1024 维 token)。
- 潜在扩散模型: 基于标准 UNet 的扩散骨干网络在 SVG 潜在空间中预测噪声,条件为 CLIP‑text 嵌入。扩散调度和损失与潜在扩散模型(LDM)相同,只是被“去噪”的“图像”现在是一系列 VFM token。
- 解码器(SVG 解码器): 轻量级 Transformer 解码器从去噪后的潜在 token 重建像素图像。由于编码器被冻结,解码器学习的是确定性映射,而非概率性的 VAE 重建。
- 训练流水线: 作者将数据集规模扩展至数亿对图文对,使用混合精度和梯度检查点技术将 GPU 内存控制在 24 GB 以内。
- 评估: 通过两个最新基准——GenEval(语义对齐)和 DPG‑Bench(多样性‑感知质量)——以及人工偏好研究来衡量生成质量。
结果与发现
| 指标 | SVG‑T2I | 可比的基于 VAE 的 LDM |
|---|---|---|
| GenEval | 0.75 | 0.73 |
| DPG‑Bench | 85.78 | 84.2 |
| FID (256×256) | 7.9 | 8.1 |
| 推理延迟(单 GPU) | 0.42 s | 0.45 s |
- 语义保真度: 更高的 GenEval 分数表明 VFM 潜在空间比学习得到的 VAE 潜在空间更好地保留了文本语义。
- 多样性: DPG‑Bench 显示 SVG‑T2I 在不牺牲真实感的前提下生成了更广泛的风格。
- 效率: 去除 VAE 编码器/解码器降低了整体流水线深度,推理时实现了适度的加速。
- 消融实验: 对编码器深度、潜在维度和扩散步数的实验表明,大部分性能提升来源于更丰富的 VFM 表征,而非架构微调。
实际意义
- 简化开发者流水线: 团队现在可以直接将预训练的 VFM(如 CLIP)接入扩散模型,无需维护单独的 VAE,降低代码复杂度和部署体积。
- 提升多模态产品的一致性: 同一 VFM 同时用于理解(如图像检索)和生成,下游服务——内容创作工具、广告生成器或 UI 原型助理——能够实现更紧密的文本‑图像一致性。
- 降低存储与带宽需求: 潜在 token 远小于原始图像,便于在分布式训练或边缘‑云场景中高效传输中间表征。
- “表征优先”生成 AI 的基础: 开源发布鼓励对其他 VFM(如 DINOv2、MAE)以及其他模态(视频、3‑D)的实验,为统一的生成基础设施铺路。
局限性与未来工作
- 依赖冻结的 VFM: 模型继承了底层视觉 Transformer 的偏见或盲点;对编码器进行微调可能提升特定领域表现,但会增加训练成本。
- 解码器质量上限: 虽然确定性解码器在 256×256 输出上表现良好,但扩展到超高分辨率仍可能受益于 VAE‑式的层次解码器。
- 计算密集的预训练: 将规模提升至数十亿图文对仍需大规模 GPU 集群,限制了小实验室的可及性。
- 未来方向: 作者建议探索编码器‑解码器的联合训练以缓解偏见,融合多模态 token(音频、深度),以及将框架应用于文本之外的条件生成(如 草图或分割图)。
作者
- Minglei Shi
- Haolin Wang
- Borui Zhang
- Wenzhao Zheng
- Bohan Zeng
- Ziyang Yuan
- Xiaoshi Wu
- Yuanxing Zhang
- Huan Yang
- Xintao Wang
- Pengfei Wan
- Kun Gai
- Jie Zhou
- Jiwen Lu
论文信息
- arXiv ID: 2512.11749v1
- 类别: cs.CV
- 发表时间: 2025 年 12 月 12 日
- PDF: Download PDF