[Paper] 追求像素监督以进行视觉预训练

发布: (2025年12月18日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.15715v1

概述

本文重新审视像素级自监督学习,提出了一种名为 Pixio 的新型掩码自编码器。通过将规模扩展至 20 亿网络爬取的图像并收紧预训练任务,作者展示了经典的自编码方法仍然可以在多种视觉任务上与现代潜在空间方法竞争(甚至超越),这些任务包括深度估计到机器人学习等。

关键贡献

  • Pixio architecture:一种增强版的掩码自编码器(MAE),使用更强大的编码器/解码器以及更具挑战性的重建目标。
  • 大规模、最小化策划的数据集:从网络收集的 20 亿张图像,采用自动化自策划流水线,省去昂贵的人为标注。
  • 竞争性的下游性能:在单目深度(如 Depth Anything)、前馈式 3D 重建(MapAnything)、语义分割以及机器人技能学习等任务上,匹配或超越 DINOv3。
  • 像素空间自监督学习可行性的示范:提供实证证据表明,像素级重建仍是潜在空间对比或聚类方法的实用替代方案。
  • 高效且稳定的训练:在保持 MAE(掩码‑重建)简洁性的同时,提高了鲁棒性和速度。

方法论

  1. 数据收集与自我策划

    • 从公开的网络资源抓取 20 亿张图像。
    • 使用自动质量过滤(模糊检测、重复删除、基本内容启发式)仅保留“干净”的样本,无需人工标注。
  2. 带更难任务的掩码自编码

    • 随机掩盖高比例(≈ 75 %)的图像块。
    • 解码器不再重建原始 RGB 值,而是预测增强目标:多尺度特征、边缘图以及颜色增强版本,迫使模型捕获更丰富的结构信息。
  3. 模型设计

    • 编码器:使用额外前馈容量和相对位置嵌入的 Vision Transformer(ViT‑L/14)。
    • 解码器:轻量级 Transformer,仅在可见 token 加上学习得到的掩码 token 上操作,然后上采样至完整分辨率。
    • 训练采用标准 MAE 损失(像素空间 L2)并结合辅助感知损失,以促进语义保真度。
  4. 训练方案

    • 在数千块 GPU 上分布式训练,约 30 个 epoch,遍历 20 亿图像语料。
    • 超参数调优极少;作者强调该流水线在不同规模下的稳定性。
  5. 评估

    • 冻结编码器,在下游基准(深度估计、分割、3D 重建、机器人策略学习)上微调轻量头部。
    • 与在相似数据量上训练的最先进潜在空间自监督模型(如 DINOv3)进行对比。

结果与发现

下游任务指标(越高越好)Pixio 与 DINOv3 对比
单目深度(NYU‑Depth V2)δ1 ≈ 0.92+1.3 %
语义分割(ADE20K)mIoU ≈ 53.4 %+0.8 %
前馈式 3D 重建(MapAnything)Chamfer‑L2 ↓~5 % 降低错误
机器人技能迁移(仿真到真实)Success rate ↑+2 %
  • 训练效率:Pixio 在约 15 % 更少的训练轮次下达到与 DINOv3 可比的性能。
  • 稳定性:损失曲线更平滑,且模型对掩码比例变化的敏感度更低。
  • 泛化能力:相同的编码器在输出空间差异巨大的任务(连续深度 vs. 离散分割)上表现良好,验证了像素级预训练的多功能性。

实际意义

  • 即插即用的视觉骨干:开发者可以将 Pixio 的编码器作为即插即用的特征提取器,应用于任何以视觉为中心的产品,从 AR 深度感知到自动驾驶感知堆栈。
  • 降低数据标注成本:由于预训练数据是自行收集的,公司可以在不投入大型标注流水线的情况下扩展视觉自监督学习。
  • 适用于边缘部署:预训练后解码器被丢弃;推理时仅需编码器(ViT),保持运行时开销适中。
  • 与潜在空间 SSL 互补:团队可以将基于像素和基于潜在的表征进行集成,以提升鲁棒性,尤其在细粒度纹理重要的场景(如医学影像、机器人)中。
  • 加速原型设计:MAE 风格目标的简洁性意味着通过替换为特定领域的网络爬取数据,能够快速在新领域(卫星影像、工业检测)进行预训练。

限制与未来工作

  • 计算强度:在 20 B 图像上训练仍然需要庞大的 GPU 集群,这对大多数实验室来说可能难以实现。
  • 掩码偏差:高掩码比例在自然图像上表现良好,但在结构稀疏的领域(例如线稿)上可能会下降。
  • 推理时未使用解码器:虽然解码器有助于学习,但其参数在推理时被丢弃,可能导致有用的重建知识未被利用。
  • 未来方向(作者提出的建议)包括:
    • 探索 自适应 掩码策略,聚焦于信息丰富的区域。
    • 与潜在空间目标联合训练,以结合两种范式的优势。
    • 将自我策划流水线扩展到多模态数据(例如视频、深度传感器),以获取更丰富的预训练信号。

作者

  • Lihe Yang
  • Shang‑Wen Li
  • Yang Li
  • Xinjie Lei
  • Dong Wang
  • Abdelrahman Mohamed
  • Hengshuang Zhao
  • Hu Xu

论文信息

  • arXiv ID: 2512.15715v1
  • 类别: cs.CV
  • 出版日期: 2025年12月17日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »