[论文] VQRAE:Representation Quantization Autoencoders 用于多模态理解、生成与重建
发布: (2025年11月29日 GMT+8 01:26)
6 min read
原文: arXiv
Source: arXiv - 2511.23386v1
概览
本文提出了 VQRAE,一种新颖的自编码器,通过使用单一 tokenizer 将视觉理解、生成和重建之间的鸿沟弥合。通过将连续语义嵌入与离散视觉标记相结合,VQRAE 有望成为多模态模型的统一前端——这在传统上需要分别的流水线。
关键贡献
- 统一 tokenizer,同时产生:
- 用于下游理解任务(如分类、检测)的高维连续特征。
- 适用于自回归生成和细粒度重建的低维离散标记。
- 两阶段训练方案:
- 阶段 1 – 冻结预训练的 Vision Transformer (ViT) 编码器,并通过像素级重建学习高容量的向量量化 (VQ) 码本。
- 阶段 2 – 与自蒸馏共同微调编码器,保持语义丰富性的同时对齐离散码本。
- 高维 VQ 码本(1536‑维),实现 100 % 利用率,推翻了 VQ 用于图像必须低维的传统观点。
- 实证验证覆盖三个方面——视觉理解、图像生成和重建——展示了竞争性的结果以及在自回归设置下的强 scaling 行为。
方法论
- 骨干网络 – 编码器采用预训练的 ViT(如 ViT‑B/16),已经能够捕获图像中的丰富语义信息。
- 对称 ViT 解码器 – 与编码器结构镜像,对潜在码进行像素级重建。
- 向量量化层 – 一个可学习的 1536 维向量码本。在前向传播时,编码器输出被映射到最近的码本条目,生成离散标记。
- 训练流程
- 阶段 1(码本预训练):
- 冻结编码器权重。
- 解码器学习从量化标记重建原始图像,推动码本覆盖视觉空间。
- 阶段 2(联合微调):
- 解冻编码器,并使用 自蒸馏损失 进行优化,使其连续输出保持接近量化版本,保留语义保真度。
- 阶段 1(码本预训练):
- 损失函数 – 像素重建(L2/LPIPS)、VQ 的承诺损失,以及对齐连续与离散表征的蒸馏项。
结果与发现
| 任务 | 指标 | VQRAE 与基线比较 |
|---|---|---|
| 图像分类(ImageNet‑1k) | Top‑1 准确率 | 与专用 ViT 编码器相差 1–2 % |
| 文本到图像生成(自回归) | FID ↓ | 与最先进的离散 VQ‑GAN 相当 |
| 图像重建(PSNR/LPIPS) | PSNR ↑ / LPIPS ↓ | 与专用自编码器持平,同时提供可用于生成的标记 |
| 码本利用率 | 利用率 % | 100 %(1536‑维,典型低维 VQ <30 %) |
作者还报告了 生成质量随模型规模线性提升 的现象,表明离散标记空间在模型扩展时仍保持表达力。
实际意义
- 单一 tokenizer 流水线:开发者现在可以将相同的视觉标记流同时输入分类器和生成模型,简化数据处理并降低工程开销。
- 更高的标记效率:高维 VQ 减少了实现高保真重建所需的标记数量,从而降低显存占用并加快基于 transformer 的生成推理。
- 即插即用的现有基础模型:由于 VQRAE 基于现成的预训练 ViT,团队可以在不从头训练的情况下将 tokenizer 移植到当前的视觉骨干上。
- 跨模态研究:统一表征为多模态任务(如图像字幕、视觉问答)打开了大门,同一标记集可被语言模型消费,实现更紧密的视觉‑语言融合。
- 可扩展生成:在 VQRAE 标记上运行的自回归解码器继承了离散建模的优势(精确似然、可控采样),同时保留语义丰富性,适用于内容创作工具、游戏资产流水线以及合成数据生成。
局限性与未来工作
- 训练成本——两阶段流程,尤其是高维码本学习,需要大量 GPU 时长和大批量训练。
- 标记长度——尽管码本维度高,但每幅图像的标记数量仍与其他 VQ 模型相当,这在超高分辨率输入时可能成为瓶颈。
- 对非视觉模态的泛化——当前设计聚焦于图像;将其扩展到视频或 3‑D 数据可能需要结构上的调整。
- 作者提出的未来方向包括:探索用于多尺度生成的层次化码本、将 tokenizer 直接集成到多模态 transformer 架构(如 CLIP‑style 模型)中,以及通过蒸馏或量化感知训练降低计算足迹。
作者
- Sinan Du
- Jiahao Guo
- Bo Li
- Shuhao Cui
- Zhengzhuo Xu
- Yifu Luo
- Yongxian Wei
- Kun Gai
- Xinggang Wang
- Kai Wu
- Chun Yuan
论文信息
- arXiv ID: 2511.23386v1
- 分类: cs.CV
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF