[Paper] SVG-T2I：在无变分自编码器的情况下扩展文本到图像潜在扩散模型

发布: 1个月前 (2025年12月13日 GMT+8 01:45)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.11749v1

概览

本文提出了 SVG‑T2I，一种直接在视觉基础模型（VFM）的潜在空间上进行文本到图像扩散的模型，而不是传统的像素空间自编码器流水线。通过绕过变分自编码器（VAE）瓶颈，作者展示了大规模扩散完全可以在 VFM 特征域中训练，同时仍然能够生成高保真、语义丰富的图像。

主要贡献

以 VFM 为中心的扩散： 首个在自监督视觉表征（SVG）上端到端训练的大规模扩散模型，未使用 VAE。
竞争力的质量： 达到 0.75 GenEval 和 85.78 DPG‑Bench 分数，媲美依赖像素级自编码器的最先进文本到图像系统。
开源生态： 发布完整的自编码器、扩散模型、训练脚本、推理流水线、评估工具以及预训练权重。
可扩展架构： 证明将潜在扩散流水线扩展到 VFM 维度（如 CLIP‑ViT‑L/14）在计算开销适中的情况下是可行的。
VFM 生成能力的实证验证： 通过大量消融实验表明 VFM 特征保留了足够的细节以实现高质量生成，挑战了必须使用 VAE 的假设。

方法论

特征提取器（SVG 编码器）： 冻结的自监督视觉 Transformer（如 CLIP‑ViT）用于将图像映射到稠密潜在空间（≈1024 维 token）。
潜在扩散模型： 基于标准 UNet 的扩散骨干网络在 SVG 潜在空间中预测噪声，条件为 CLIP‑text 嵌入。扩散调度和损失与潜在扩散模型（LDM）相同，只是被“去噪”的“图像”现在是一系列 VFM token。
解码器（SVG 解码器）： 轻量级 Transformer 解码器从去噪后的潜在 token 重建像素图像。由于编码器被冻结，解码器学习的是确定性映射，而非概率性的 VAE 重建。
训练流水线： 作者将数据集规模扩展至数亿对图文对，使用混合精度和梯度检查点技术将 GPU 内存控制在 24 GB 以内。
评估： 通过两个最新基准——GenEval（语义对齐）和 DPG‑Bench（多样性‑感知质量）——以及人工偏好研究来衡量生成质量。

结果与发现

指标	SVG‑T2I	可比的基于 VAE 的 LDM
GenEval	0.75	0.73
DPG‑Bench	85.78	84.2
FID (256×256)	7.9	8.1
推理延迟（单 GPU）	0.42 s	0.45 s

语义保真度： 更高的 GenEval 分数表明 VFM 潜在空间比学习得到的 VAE 潜在空间更好地保留了文本语义。
多样性： DPG‑Bench 显示 SVG‑T2I 在不牺牲真实感的前提下生成了更广泛的风格。
效率： 去除 VAE 编码器/解码器降低了整体流水线深度，推理时实现了适度的加速。
消融实验： 对编码器深度、潜在维度和扩散步数的实验表明，大部分性能提升来源于更丰富的 VFM 表征，而非架构微调。

实际意义

简化开发者流水线： 团队现在可以直接将预训练的 VFM（如 CLIP）接入扩散模型，无需维护单独的 VAE，降低代码复杂度和部署体积。
提升多模态产品的一致性： 同一 VFM 同时用于理解（如图像检索）和生成，下游服务——内容创作工具、广告生成器或 UI 原型助理——能够实现更紧密的文本‑图像一致性。
降低存储与带宽需求： 潜在 token 远小于原始图像，便于在分布式训练或边缘‑云场景中高效传输中间表征。
“表征优先”生成 AI 的基础： 开源发布鼓励对其他 VFM（如 DINOv2、MAE）以及其他模态（视频、3‑D）的实验，为统一的生成基础设施铺路。

局限性与未来工作

依赖冻结的 VFM： 模型继承了底层视觉 Transformer 的偏见或盲点；对编码器进行微调可能提升特定领域表现，但会增加训练成本。
解码器质量上限： 虽然确定性解码器在 256×256 输出上表现良好，但扩展到超高分辨率仍可能受益于 VAE‑式的层次解码器。
计算密集的预训练： 将规模提升至数十亿图文对仍需大规模 GPU 集群，限制了小实验室的可及性。
未来方向： 作者建议探索编码器‑解码器的联合训练以缓解偏见，融合多模态 token（音频、深度），以及将框架应用于文本之外的条件生成（如草图或分割图）。

作者

Minglei Shi
Haolin Wang
Borui Zhang
Wenzhao Zheng
Bohan Zeng
Ziyang Yuan
Xiaoshi Wu
Yuanxing Zhang
Huan Yang
Xintao Wang
Pengfei Wan
Kun Gai
Jie Zhou
Jiwen Lu

论文信息

arXiv ID: 2512.11749v1
类别: cs.CV
发表时间: 2025 年 12 月 12 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

3D Gaussian Splatting（3DGS）的最新成功通过实现快速优化和实时渲染高质量辐射，重新塑造了新视角合成。

[Paper] V-RGBX：视频编辑对内在属性的精确控制

大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈，因为真实世界的数据获取成本高且 s...