[Paper] Next-Embedding 预测使视觉学习者更强
发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.16922v1
概述
本文介绍了 Next‑Embedding Predictive Autoregression (NEPA),这是一种用于视觉模型的自监督预训练方案,借鉴了已经彻底改变 NLP 的生成式预训练范式。NEPA 并不强迫网络重建像素或学习对比特征,而是训练 Vision Transformer (ViT) 在已知前面图像块的嵌入的情况下,预测下一个图像块的嵌入。单一、简洁的目标即可实现最先进的 ImageNet 准确率以及强大的迁移性能——且无需额外的分词器、重建头或对比技巧。
关键贡献
- Embedding‑level 生成式预训练: 提出预测未来的 patch 嵌入(而非像素)作为视觉的通用自监督任务。
- 简洁、与架构无关的流水线: 使用普通的 ViT 主干,配合因果掩码和 stop‑gradient 技巧;无需离散分词器、重建解码器或对比对。
- 强大的实证结果: 在 ImageNet‑1K 上微调后,ViT‑B 达到 83.8 % 的 top‑1 准确率,ViT‑L 达到 85.3 %,匹配或超越许多当代 SSL 方法。
- 稳健的迁移能力: 在 ADE20K 上展示了竞争性的语义分割性能,表明学习到的嵌入捕获了高级语义信息。
- 可扩展性与模态无关的前景: 表明相同的下一个嵌入预测公式可以以最小改动应用于其他模态(如视频、音频)。
方法论
- Patch Embedding Extraction – 将输入图像划分为一系列不重叠的补丁(例如 16×16 像素)。每个补丁通过线性投影映射到固定维度的嵌入,就像标准 ViT 的分词过程。
- Causal Masking – Transformer 以自回归方式处理序列:在第 t 步只能关注来自步骤 ≤ t‑1 的嵌入。这实现了“预测未来”的设置。
- Stop‑Gradient on Targets – 第 t 步的目标嵌入取自同一骨干网络的 冻结 副本(或动量编码器)。梯度不会流入目标,从而防止崩溃并稳定训练。
- Prediction Head – 一个轻量的线性层将 Transformer 在位置 t‑1 的隐藏状态映射为补丁 t 的预测嵌入。
- Loss – 使用预测嵌入与停止梯度的目标嵌入之间的简单均方误差(MSE)。不涉及重建损失、对比对或离散 token 词表。
- Training Regime – 模型在 ImageNet‑1K 上预训练数百个 epoch,仅使用 NEPA 目标;随后在下游任务(分类、分割)上使用标准监督头进行微调。
整个流水线可以直接嵌入熟悉的 ViT 训练循环,便于在现有代码库中使用。
结果与发现
| 模型(骨干) | 预训练(NEPA) | ImageNet‑1K Top‑1(微调) | ADE20K mIoU(分割) |
|---|---|---|---|
| ViT‑B/16 | 300 epochs | 83.8 % | 48.2 % |
| ViT‑L/16 | 300 epochs | 85.3 % | 50.1 % |
- 可与最先进的自监督学习(SSL)方法相媲美(例如 MAE、DINO),即使仅使用单一损失项。
- 训练效率高:由于损失作用于低维嵌入,内存和计算开销低于像素重建方法。
- 表征质量:线性探测(仅在冻结特征上训练分类器)即可达到 >70 % 的 Top‑1,表明嵌入已经编码了判别信息。
- 消融实验证实,因果遮蔽和停止梯度是必不可少的;去除任意一项会导致准确率下降约 2–3 %。
实际意义
- 简化流水线: 团队可以用单一的 NEPA 预训练步骤替代复杂的多损失自监督学习配方,从而降低工程开销。
- 更快的预训练: 更低的内存使用使得在普通 GPU 上训练更大的 ViT,或在不产生高额成本的情况下扩展到更大的数据集。
- 模态无关的扩展: 由于目标函数作用于嵌入,相同的代码可复用于视频帧、音频谱图块或多模态 token 流,开启统一基础模型的可能。
- 更好的下游微调: 嵌入已经捕获语义结构,下游开发者可能只需更少的微调 epoch 即可达到生产级性能。
- 在设备端学习的潜力: 由于预测头轻量且损失是对嵌入的均方误差,NEPA 可适配边缘设备的持续学习场景。
限制与未来工作
- 依赖冻结的目标编码器: 停止梯度的目标必须是模型的稳定副本(或动量编码器),这会增加少量的记录成本,并可能限制完全在线学习。
- 评估仅限于图像分类与分割: 虽然结果令人鼓舞,但更广泛的基准(目标检测、视频动作识别、跨模态检索)仍有待探索。
- 扩展到极大规模数据集: 论文在 ImageNet‑1K 上进行预训练;尚不清楚 NEPA 在网络规模语料库中(其中 token 多样性和长程依赖更高)表现如何。
- 潜在的模态特定微调: 对于非视觉数据,最佳的 patch 大小、嵌入维度和遮蔽策略可能不同;未来工作应系统地研究这些超参数。
总体而言,NEPA 提供了一个简洁且高效的替代方案,取代了当前众多自监督视觉方法,其简易性使其成为下一代视觉 AI 系统的有吸引力的构建块。
作者
- Sihan Xu
- Ziqiao Ma
- Wenhao Chai
- Xuweiyi Chen
- Weiyang Jin
- Joyce Chai
- Saining Xie
- Stella X. Yu
论文信息
- arXiv ID: 2512.16922v1
- 分类: cs.CV
- 出版时间: 2025年12月18日
- PDF: 下载 PDF