[论文] VQRAE:Representation Quantization Autoencoders 用于多模态理解、生成与重建

发布: (2025年11月29日 GMT+8 01:26)
6 min read
原文: arXiv

Source: arXiv - 2511.23386v1

概览

本文提出了 VQRAE,一种新颖的自编码器,通过使用单一 tokenizer 将视觉理解、生成和重建之间的鸿沟弥合。通过将连续语义嵌入与离散视觉标记相结合,VQRAE 有望成为多模态模型的统一前端——这在传统上需要分别的流水线。

关键贡献

  • 统一 tokenizer,同时产生:
    1. 用于下游理解任务(如分类、检测)的高维连续特征。
    2. 适用于自回归生成和细粒度重建的低维离散标记。
  • 两阶段训练方案
    • 阶段 1 – 冻结预训练的 Vision Transformer (ViT) 编码器,并通过像素级重建学习高容量的向量量化 (VQ) 码本。
    • 阶段 2 – 与自蒸馏共同微调编码器,保持语义丰富性的同时对齐离散码本。
  • 高维 VQ 码本(1536‑维),实现 100 % 利用率,推翻了 VQ 用于图像必须低维的传统观点。
  • 实证验证覆盖三个方面——视觉理解、图像生成和重建——展示了竞争性的结果以及在自回归设置下的强 scaling 行为。

方法论

  1. 骨干网络 – 编码器采用预训练的 ViT(如 ViT‑B/16),已经能够捕获图像中的丰富语义信息。
  2. 对称 ViT 解码器 – 与编码器结构镜像,对潜在码进行像素级重建。
  3. 向量量化层 – 一个可学习的 1536 维向量码本。在前向传播时,编码器输出被映射到最近的码本条目,生成离散标记。
  4. 训练流程
    • 阶段 1(码本预训练)
      • 冻结编码器权重。
      • 解码器学习从量化标记重建原始图像,推动码本覆盖视觉空间。
    • 阶段 2(联合微调)
      • 解冻编码器,并使用 自蒸馏损失 进行优化,使其连续输出保持接近量化版本,保留语义保真度。
  5. 损失函数 – 像素重建(L2/LPIPS)、VQ 的承诺损失,以及对齐连续与离散表征的蒸馏项。

结果与发现

任务指标VQRAE 与基线比较
图像分类(ImageNet‑1k)Top‑1 准确率与专用 ViT 编码器相差 1–2 %
文本到图像生成(自回归)FID ↓与最先进的离散 VQ‑GAN 相当
图像重建(PSNR/LPIPS)PSNR ↑ / LPIPS ↓与专用自编码器持平,同时提供可用于生成的标记
码本利用率利用率 %100 %(1536‑维,典型低维 VQ <30 %)

作者还报告了 生成质量随模型规模线性提升 的现象,表明离散标记空间在模型扩展时仍保持表达力。

实际意义

  • 单一 tokenizer 流水线:开发者现在可以将相同的视觉标记流同时输入分类器和生成模型,简化数据处理并降低工程开销。
  • 更高的标记效率:高维 VQ 减少了实现高保真重建所需的标记数量,从而降低显存占用并加快基于 transformer 的生成推理。
  • 即插即用的现有基础模型:由于 VQRAE 基于现成的预训练 ViT,团队可以在不从头训练的情况下将 tokenizer 移植到当前的视觉骨干上。
  • 跨模态研究:统一表征为多模态任务(如图像字幕、视觉问答)打开了大门,同一标记集可被语言模型消费,实现更紧密的视觉‑语言融合。
  • 可扩展生成:在 VQRAE 标记上运行的自回归解码器继承了离散建模的优势(精确似然、可控采样),同时保留语义丰富性,适用于内容创作工具、游戏资产流水线以及合成数据生成。

局限性与未来工作

  • 训练成本——两阶段流程,尤其是高维码本学习,需要大量 GPU 时长和大批量训练。
  • 标记长度——尽管码本维度高,但每幅图像的标记数量仍与其他 VQ 模型相当,这在超高分辨率输入时可能成为瓶颈。
  • 对非视觉模态的泛化——当前设计聚焦于图像;将其扩展到视频或 3‑D 数据可能需要结构上的调整。
  • 作者提出的未来方向包括:探索用于多尺度生成的层次化码本、将 tokenizer 直接集成到多模态 transformer 架构(如 CLIP‑style 模型)中,以及通过蒸馏或量化感知训练降低计算足迹。

作者

  • Sinan Du
  • Jiahao Guo
  • Bo Li
  • Shuhao Cui
  • Zhengzhuo Xu
  • Yifu Luo
  • Yongxian Wei
  • Kun Gai
  • Xinggang Wang
  • Kai Wu
  • Chun Yuan

论文信息

  • arXiv ID: 2511.23386v1
  • 分类: cs.CV
  • 发布日期: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »