[Paper] Next-Embedding 预测使视觉学习者更强

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16922v1

概述

本文介绍了 Next‑Embedding Predictive Autoregression (NEPA)，这是一种用于视觉模型的自监督预训练方案，借鉴了已经彻底改变 NLP 的生成式预训练范式。NEPA 并不强迫网络重建像素或学习对比特征，而是训练 Vision Transformer (ViT) 在已知前面图像块的嵌入的情况下，预测下一个图像块的嵌入。单一、简洁的目标即可实现最先进的 ImageNet 准确率以及强大的迁移性能——且无需额外的分词器、重建头或对比技巧。

关键贡献

Embedding‑level 生成式预训练: 提出预测未来的 patch 嵌入（而非像素）作为视觉的通用自监督任务。
简洁、与架构无关的流水线: 使用普通的 ViT 主干，配合因果掩码和 stop‑gradient 技巧；无需离散分词器、重建解码器或对比对。
强大的实证结果: 在 ImageNet‑1K 上微调后，ViT‑B 达到 83.8 % 的 top‑1 准确率，ViT‑L 达到 85.3 %，匹配或超越许多当代 SSL 方法。
稳健的迁移能力: 在 ADE20K 上展示了竞争性的语义分割性能，表明学习到的嵌入捕获了高级语义信息。
可扩展性与模态无关的前景: 表明相同的下一个嵌入预测公式可以以最小改动应用于其他模态（如视频、音频）。

方法论

Patch Embedding Extraction – 将输入图像划分为一系列不重叠的补丁（例如 16×16 像素）。每个补丁通过线性投影映射到固定维度的嵌入，就像标准 ViT 的分词过程。
Causal Masking – Transformer 以自回归方式处理序列：在第 t 步只能关注来自步骤 ≤ t‑1 的嵌入。这实现了“预测未来”的设置。
Stop‑Gradient on Targets – 第 t 步的目标嵌入取自同一骨干网络的冻结副本（或动量编码器）。梯度不会流入目标，从而防止崩溃并稳定训练。
Prediction Head – 一个轻量的线性层将 Transformer 在位置 t‑1 的隐藏状态映射为补丁 t 的预测嵌入。
Loss – 使用预测嵌入与停止梯度的目标嵌入之间的简单均方误差（MSE）。不涉及重建损失、对比对或离散 token 词表。
Training Regime – 模型在 ImageNet‑1K 上预训练数百个 epoch，仅使用 NEPA 目标；随后在下游任务（分类、分割）上使用标准监督头进行微调。

整个流水线可以直接嵌入熟悉的 ViT 训练循环，便于在现有代码库中使用。

结果与发现

模型（骨干）	预训练（NEPA）	ImageNet‑1K Top‑1（微调）	ADE20K mIoU（分割）
ViT‑B/16	300 epochs	83.8 %	48.2 %
ViT‑L/16	300 epochs	85.3 %	50.1 %

可与最先进的自监督学习（SSL）方法相媲美（例如 MAE、DINO），即使仅使用单一损失项。
训练效率高：由于损失作用于低维嵌入，内存和计算开销低于像素重建方法。
表征质量：线性探测（仅在冻结特征上训练分类器）即可达到 >70 % 的 Top‑1，表明嵌入已经编码了判别信息。
消融实验证实，因果遮蔽和停止梯度是必不可少的；去除任意一项会导致准确率下降约 2–3 %。

实际意义

简化流水线: 团队可以用单一的 NEPA 预训练步骤替代复杂的多损失自监督学习配方，从而降低工程开销。
更快的预训练: 更低的内存使用使得在普通 GPU 上训练更大的 ViT，或在不产生高额成本的情况下扩展到更大的数据集。
模态无关的扩展: 由于目标函数作用于嵌入，相同的代码可复用于视频帧、音频谱图块或多模态 token 流，开启统一基础模型的可能。
更好的下游微调: 嵌入已经捕获语义结构，下游开发者可能只需更少的微调 epoch 即可达到生产级性能。
在设备端学习的潜力: 由于预测头轻量且损失是对嵌入的均方误差，NEPA 可适配边缘设备的持续学习场景。

限制与未来工作

依赖冻结的目标编码器: 停止梯度的目标必须是模型的稳定副本（或动量编码器），这会增加少量的记录成本，并可能限制完全在线学习。
评估仅限于图像分类与分割: 虽然结果令人鼓舞，但更广泛的基准（目标检测、视频动作识别、跨模态检索）仍有待探索。
扩展到极大规模数据集: 论文在 ImageNet‑1K 上进行预训练；尚不清楚 NEPA 在网络规模语料库中（其中 token 多样性和长程依赖更高）表现如何。
潜在的模态特定微调: 对于非视觉数据，最佳的 patch 大小、嵌入维度和遮蔽策略可能不同；未来工作应系统地研究这些超参数。

总体而言，NEPA 提供了一个简洁且高效的替代方案，取代了当前众多自监督视觉方法，其简易性使其成为下一代视觉 AI 系统的有吸引力的构建块。

作者

Sihan Xu
Ziqiao Ma
Wenhao Chai
Xuweiyi Chen
Weiyang Jin
Joyce Chai
Saining Xie
Stella X. Yu

论文信息

arXiv ID: 2512.16922v1
分类: cs.CV
出版时间: 2025年12月18日
PDF: 下载 PDF

[Paper] Next-Embedding 预测使视觉学习者更强

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 灵巧的世界模型

[Paper] 开放基础模型中视觉的对抗鲁棒性