[论文] VQRAE：Representation Quantization Autoencoders 用于多模态理解、生成与重建

发布: 1周前 (2025年11月29日 GMT+8 01:26)

6 min read

原文: arXiv

Source: arXiv - 2511.23386v1

概览

本文提出了 VQRAE，一种新颖的自编码器，通过使用单一 tokenizer 将视觉理解、生成和重建之间的鸿沟弥合。通过将连续语义嵌入与离散视觉标记相结合，VQRAE 有望成为多模态模型的统一前端——这在传统上需要分别的流水线。

统一 tokenizer，同时产生：
1. 用于下游理解任务（如分类、检测）的高维连续特征。
2. 适用于自回归生成和细粒度重建的低维离散标记。
两阶段训练方案：
- 阶段 1 – 冻结预训练的 Vision Transformer (ViT) 编码器，并通过像素级重建学习高容量的向量量化 (VQ) 码本。
- 阶段 2 – 与自蒸馏共同微调编码器，保持语义丰富性的同时对齐离散码本。
高维 VQ 码本（1536‑维），实现 100 % 利用率，推翻了 VQ 用于图像必须低维的传统观点。
实证验证覆盖三个方面——视觉理解、图像生成和重建——展示了竞争性的结果以及在自回归设置下的强 scaling 行为。

骨干网络 – 编码器采用预训练的 ViT（如 ViT‑B/16），已经能够捕获图像中的丰富语义信息。
对称 ViT 解码器 – 与编码器结构镜像，对潜在码进行像素级重建。
向量量化层 – 一个可学习的 1536 维向量码本。在前向传播时，编码器输出被映射到最近的码本条目，生成离散标记。
训练流程
- 阶段 1（码本预训练）：
  - 冻结编码器权重。
  - 解码器学习从量化标记重建原始图像，推动码本覆盖视觉空间。
- 阶段 2（联合微调）：
  - 解冻编码器，并使用 自蒸馏损失 进行优化，使其连续输出保持接近量化版本，保留语义保真度。
损失函数 – 像素重建（L2/LPIPS）、VQ 的承诺损失，以及对齐连续与离散表征的蒸馏项。

作者还报告了 生成质量随模型规模线性提升 的现象，表明离散标记空间在模型扩展时仍保持表达力。

单一 tokenizer 流水线：开发者现在可以将相同的视觉标记流同时输入分类器和生成模型，简化数据处理并降低工程开销。
更高的标记效率：高维 VQ 减少了实现高保真重建所需的标记数量，从而降低显存占用并加快基于 transformer 的生成推理。
即插即用的现有基础模型：由于 VQRAE 基于现成的预训练 ViT，团队可以在不从头训练的情况下将 tokenizer 移植到当前的视觉骨干上。
跨模态研究：统一表征为多模态任务（如图像字幕、视觉问答）打开了大门，同一标记集可被语言模型消费，实现更紧密的视觉‑语言融合。
可扩展生成：在 VQRAE 标记上运行的自回归解码器继承了离散建模的优势（精确似然、可控采样），同时保留语义丰富性，适用于内容创作工具、游戏资产流水线以及合成数据生成。

训练成本——两阶段流程，尤其是高维码本学习，需要大量 GPU 时长和大批量训练。
标记长度——尽管码本维度高，但每幅图像的标记数量仍与其他 VQ 模型相当，这在超高分辨率输入时可能成为瓶颈。
对非视觉模态的泛化——当前设计聚焦于图像；将其扩展到视频或 3‑D 数据可能需要结构上的调整。
作者提出的未来方向包括：探索用于多尺度生成的层次化码本、将 tokenizer 直接集成到多模态 transformer 架构（如 CLIP‑style 模型）中，以及通过蒸馏或量化感知训练降低计算足迹。