[Paper] Next-Embedding 预测使视觉学习者更强

发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.16922v1

概述

本文介绍了 Next‑Embedding Predictive Autoregression (NEPA),这是一种用于视觉模型的自监督预训练方案,借鉴了已经彻底改变 NLP 的生成式预训练范式。NEPA 并不强迫网络重建像素或学习对比特征,而是训练 Vision Transformer (ViT) 在已知前面图像块的嵌入的情况下,预测下一个图像块的嵌入。单一、简洁的目标即可实现最先进的 ImageNet 准确率以及强大的迁移性能——且无需额外的分词器、重建头或对比技巧。

关键贡献

  • Embedding‑level 生成式预训练: 提出预测未来的 patch 嵌入(而非像素)作为视觉的通用自监督任务。
  • 简洁、与架构无关的流水线: 使用普通的 ViT 主干,配合因果掩码和 stop‑gradient 技巧;无需离散分词器、重建解码器或对比对。
  • 强大的实证结果: 在 ImageNet‑1K 上微调后,ViT‑B 达到 83.8 % 的 top‑1 准确率,ViT‑L 达到 85.3 %,匹配或超越许多当代 SSL 方法。
  • 稳健的迁移能力: 在 ADE20K 上展示了竞争性的语义分割性能,表明学习到的嵌入捕获了高级语义信息。
  • 可扩展性与模态无关的前景: 表明相同的下一个嵌入预测公式可以以最小改动应用于其他模态(如视频、音频)。

方法论

  1. Patch Embedding Extraction – 将输入图像划分为一系列不重叠的补丁(例如 16×16 像素)。每个补丁通过线性投影映射到固定维度的嵌入,就像标准 ViT 的分词过程。
  2. Causal Masking – Transformer 以自回归方式处理序列:在第 t 步只能关注来自步骤 ≤ t‑1 的嵌入。这实现了“预测未来”的设置。
  3. Stop‑Gradient on Targets – 第 t 步的目标嵌入取自同一骨干网络的 冻结 副本(或动量编码器)。梯度不会流入目标,从而防止崩溃并稳定训练。
  4. Prediction Head – 一个轻量的线性层将 Transformer 在位置 t‑1 的隐藏状态映射为补丁 t 的预测嵌入。
  5. Loss – 使用预测嵌入与停止梯度的目标嵌入之间的简单均方误差(MSE)。不涉及重建损失、对比对或离散 token 词表。
  6. Training Regime – 模型在 ImageNet‑1K 上预训练数百个 epoch,仅使用 NEPA 目标;随后在下游任务(分类、分割)上使用标准监督头进行微调。

整个流水线可以直接嵌入熟悉的 ViT 训练循环,便于在现有代码库中使用。

结果与发现

模型(骨干)预训练(NEPA)ImageNet‑1K Top‑1(微调)ADE20K mIoU(分割)
ViT‑B/16300 epochs83.8 %48.2 %
ViT‑L/16300 epochs85.3 %50.1 %
  • 可与最先进的自监督学习(SSL)方法相媲美(例如 MAE、DINO),即使仅使用单一损失项。
  • 训练效率高:由于损失作用于低维嵌入,内存和计算开销低于像素重建方法。
  • 表征质量:线性探测(仅在冻结特征上训练分类器)即可达到 >70 % 的 Top‑1,表明嵌入已经编码了判别信息。
  • 消融实验证实,因果遮蔽和停止梯度是必不可少的;去除任意一项会导致准确率下降约 2–3 %。

实际意义

  • 简化流水线: 团队可以用单一的 NEPA 预训练步骤替代复杂的多损失自监督学习配方,从而降低工程开销。
  • 更快的预训练: 更低的内存使用使得在普通 GPU 上训练更大的 ViT,或在不产生高额成本的情况下扩展到更大的数据集。
  • 模态无关的扩展: 由于目标函数作用于嵌入,相同的代码可复用于视频帧、音频谱图块或多模态 token 流,开启统一基础模型的可能。
  • 更好的下游微调: 嵌入已经捕获语义结构,下游开发者可能只需更少的微调 epoch 即可达到生产级性能。
  • 在设备端学习的潜力: 由于预测头轻量且损失是对嵌入的均方误差,NEPA 可适配边缘设备的持续学习场景。

限制与未来工作

  • 依赖冻结的目标编码器: 停止梯度的目标必须是模型的稳定副本(或动量编码器),这会增加少量的记录成本,并可能限制完全在线学习。
  • 评估仅限于图像分类与分割: 虽然结果令人鼓舞,但更广泛的基准(目标检测、视频动作识别、跨模态检索)仍有待探索。
  • 扩展到极大规模数据集: 论文在 ImageNet‑1K 上进行预训练;尚不清楚 NEPA 在网络规模语料库中(其中 token 多样性和长程依赖更高)表现如何。
  • 潜在的模态特定微调: 对于非视觉数据,最佳的 patch 大小、嵌入维度和遮蔽策略可能不同;未来工作应系统地研究这些超参数。

总体而言,NEPA 提供了一个简洁且高效的替代方案,取代了当前众多自监督视觉方法,其简易性使其成为下一代视觉 AI 系统的有吸引力的构建块。

作者

  • Sihan Xu
  • Ziqiao Ma
  • Wenhao Chai
  • Xuweiyi Chen
  • Weiyang Jin
  • Joyce Chai
  • Saining Xie
  • Stella X. Yu

论文信息

  • arXiv ID: 2512.16922v1
  • 分类: cs.CV
  • 出版时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...