[Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

发布: (2025年12月16日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.13687v1

请提供您希望翻译的具体文本内容,我将按照要求进行简体中文翻译并保留原有的格式。

概述

本文解决了现代图像生成流水线中的一个隐藏瓶颈:视觉分词器(通常是 VAE‑style 编码器),它将原始像素转换为紧凑的潜在表示。作者指出,传统仅基于重建的预训练会产生在重现低层细节方面表现良好,但在捕获高层语义方面不足的潜在向量——这正是下游生成器所需要的。通过重新设计预训练目标,加入对比图文对齐和自监督学习,他们构建了一个能够随计算资源优雅扩展并显著加速下游生成的分词器。

关键贡献

  • 识别“预训练规模问题” —— 仅使用重建的标准训练,即使投入巨大的计算资源,也无法提升生成质量。
  • 提出 VTP(视觉分词器预训练) —— 一个统一框架,联合优化:
    1. 图文对比损失(语义对齐)。
    2. 自监督损失(例如,遮蔽图像建模)。
    3. 重建损失(像素保真度)。
  • 大规模实证研究 表明语义理解是生成质量的主要驱动因素。
  • 展示强大的尺度行为:增加 FLOPs、模型规模或数据用于 VTP,可持续提升 FID,而传统自编码器则早早出现平台期。
  • 发布预训练分词器,实现 78.2 % 零样本 ImageNet 准确率,0.36 rFID,且在下游扩散模型(DiT)上收敛速度提升 4.1×,且无需任何架构改动。

方法论

  1. 统一损失设计 – Tokenizer 的编码器通过三个目标的加权求和进行训练:
    • 对比图像‑文本损失(类似 CLIP)迫使潜在表示编码与自然语言标题对齐的语义。
    • 自监督损失(例如,遮挡块预测)鼓励模型推断缺失的视觉信息,促进更丰富的特征学习。
    • 重建损失(像素级 L2 或感知损失)仍然确保潜在表示能够解码回真实图像。
  2. 架构 – 标准的视觉 Transformer(ViT)骨干网络作为编码器;轻量级解码器用于重建图像。同一编码器随后被重新用作基于扩散的生成器(DiT)的潜在提供者。
  3. 训练方案 – 模型在大规模图像‑文本数据集(例如 LAION‑400M)上使用分布式训练进行预训练。超参数被调节以平衡三种损失,并采用一个调度,使得随着训练的进行,重点逐渐从重建转向语义对齐。
  4. 评估流程 – 预训练完成后,冻结 tokenizer 并将其接入在 ImageNet 上训练的 DiT 扩散模型。生成质量通过 FID、rFID 和收敛速度衡量,而 tokenizer 本身的表示质量则通过零样本分类准确率进行评估。

结果与发现

指标传统 VAE(仅重建)VTP(联合损失)
ImageNet 零样本准确率~65 %78.2 %
rFID(重建质量)0.480.36
生成收敛(DiT)基线 100 % 轮次4.1× 更快
FID 改进 vs. FLOPs(已缩放)在约 10 % 总 FLOPs 后停滞当 FLOPs 加倍时,FID 减少 65.8 %

关键要点

  • 添加语义对比损失会产生对下游生成器更有用的潜在表示。
  • 分词器的性能几乎随计算、数据和模型规模线性增长——这是仅重建的 VAE 所无法实现的。
  • 下游扩散模型收敛速度显著加快,节省了训练时间和云成本。

实际意义

  • 更快的模型开发 – 团队只需对 VTP tokenizer 进行一次预训练,即可在多个生成项目(图像合成、图像修补、风格迁移)中复用,从而减少重复的高成本训练周期。
  • 更好的零样本迁移 – 高语义保真度使得在新领域无需微调 tokenizer 即可实现即插即用的生成,适用于电商、游戏或 AR/VR 内容创作的快速原型制作。
  • 成本效益的扩展 – 由于生成质量随额外的预训练算力提升,组织可以在公共云等平台上进行更大规模的预训练,从而在下游模型性能上获得相应提升,而不是受到硬性上限的限制。
  • 兼容性 – VTP 可直接与现有扩散框架(DiT、Stable Diffusion 等)配合使用,无需更改架构,使得已经使用这些技术栈的工程师能够轻松集成。
  • 开源可用性 – 已发布的模型和训练脚本降低了初创公司和研究实验室在高质量视觉 tokenizer 上进行实验的门槛,无需从零构建全部系统。

限制与未来工作

  • 训练成本 – 虽然 VTP 可良好扩展,但最初的联合预训练仍需大量 GPU 时长和大规模图文语料库,这对小团队可能构成障碍。
  • 领域特异性 – 分词器在广泛的互联网数据上训练;在高度专业化领域(医学影像、卫星图像)上的表现可能在缺乏领域特定微调时下降。
  • 损失平衡 – 对比、 自监督 与 重建损失之间的最佳权重是经验性确定的;更具原理性或自适应的方案可能进一步提升鲁棒性。
  • 向视频扩展 – 本文聚焦于静态图像;将统一损失框架扩展到用于视频生成的时空分词器是一个待探索的方向。

总体而言,VTP 证明了“理解”视觉世界——通过语义对齐——是实现可扩展、高质量图像生成的关键。

作者

  • Jingfeng Yao
  • Yuda Song
  • Yucong Zhou
  • Xinggang Wang

论文信息

  • arXiv ID: 2512.13687v1
  • 分类: cs.CV
  • 发布时间: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】循环视频掩码自编码器

我们提出了循环视频掩码自编码器(Recurrent Video Masked‑Autoencoders,RVM):一种新颖的视频表示学习方法,使用 transformer‑based 循环神经网络来……