[Paper] Tuna-2：Pixel Embeddings 胜过 Vision Encoders，实现多模态理解与生成

发布: 1天前 (2026年4月28日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24763v1

概览

Tuna‑2 是一种新的统一多模态模型，它抛弃了传统的视觉编码器管道，直接在原始像素嵌入上进行图像理解和生成。通过将架构简化为少量的补丁嵌入层，作者展示了端到端像素空间训练可以匹配——甚至超越——最先进的潜在空间方法，为更紧密耦合的感知与合成系统打开了道路。

Patch Embedding Front‑End – 输入图像被划分为不重叠的补丁（例如 16×16 像素），并线性投射到稠密嵌入空间，类似于 Vision Transformer 的第一层，但不使用后续的深层编码器堆叠。
Shared Transformer Backbone – 相同的 Transformer 层同时处理视觉嵌入和文本 token，使模型能够学习联合的多模态表示。
Dual‑Head Decoding –
- Understanding head: 从共享表示中预测标签、答案或字幕的分类器或解码器。
- Generation head: 预测像素级 token（例如使用离散 VQ‑GAN 码本）的自回归解码器，用于在文本条件下合成图像。
Training Regime – 模型首先在大规模图像‑文本对上使用对比损失和下一个 token 预测进行预训练，然后在下游任务上进行微调。没有单独冻结或预训练的视觉编码器；所有内容均从原始像素联合学习。

该方法刻意保持简洁：没有 VAE 瓶颈，没有单独的 “vision encoder” 模块，也没有除标准多模态目标之外的手工对齐损失。

关键观察：

对开发者更简化的堆栈 – 现在可以构建一个单一的 API，处理图像字幕、视觉问答和文本到图像生成，而无需将不同的编码器和解码器服务拼接在一起。
降低基础设施成本 – 更少的模型组件意味着更低的 GPU 内存占用，并且更容易在只能负担得起适度 transformer 的边缘设备上部署。
端到端微调 – 团队可以在专有的图像‑文本数据上对整个系统进行微调，而不必担心预训练视觉编码器不匹配，从而加快迭代周期。
更好的跨模态一致性 – 由于相同的像素空间表示同时用于理解和生成，输出（例如字幕和生成的图像）更有可能在语义上保持一致，这对内容创作工具、虚拟助理以及 AR/VR 流程非常有价值。