[Paper] 少看,多开:通过 Foundation Models 的随机补丁选择实现可推广的端到端自动驾驶

发布: (2026年1月16日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2601.10707v1

概述

一项新研究表明,基于 foundation‑model patch features 构建的自动驾驶策略在训练时被迫忽略这些补丁的随机子集后,能够变得更加稳健。通过随机遮蔽补丁描述符,作者显著提升了分布外(OOD)性能,同时将推理时间减半。

关键贡献

  • Stochastic‑Patch‑Selection (SPS):一种轻量级训练技巧,随机丢弃每帧中可配置比例的视觉补丁,保持空间布局。
  • 冗余分析:使用 PCA 和跨补丁相似度对 BLIP‑2 视觉 token 进行分析,揭示 >90 % 的方差集中在 <30 % 的补丁中。
  • 实证提升:SPS 训练的策略在多个 OOD 基准上相比前沿方法实现 平均 6.2 % 的提升,在闭环仿真中最高提升 20.4 %
  • 加速:由于处理的 token 嵌入更少,推理速度提升 2.4 倍
  • 真实世界迁移:同一 SPS 训练模型可直接驱动实体汽车,无需额外微调。

方法论

  1. 特征提取 – 将每帧相机图像输入冻结的 BLIP‑2 视觉编码器,生成一个 64‑patch 的 token 网格(每个 token 大约是 768 维向量)。
  2. 冗余量化 – 作者在大量 token 语料上运行 PCA,并计算两两之间的余弦相似度。分析表明,大多数信息在多个 patch 之间是重复的。
  3. 随机遮蔽 – 在每一次训练步骤中,随机遮蔽一定比例的 patch(例如 30 %)。被遮蔽的 token 被替换为学习得到的 “null” 嵌入,但其余 token 的二维布局保持不变,从而策略仍然能够获得连贯的空间映射。
  4. 策略网络 – 一个轻量级的 Transformer 解码器接收部分遮蔽后的 token 网格,并端到端输出转向、油门和刹车指令。
  5. 训练方案 – 在专家驾驶数据上进行标准的模仿学习,并对每帧重新计算 SPS 遮蔽,从而产生同一场景的多种不同 “视角”。
  6. 评估 – 作者在多个 OOD 赛道(不同天气、光照、全新路线)上进行仿真测试,并在真实车辆上进行实地测试,结果与已发表的最佳端到端基线进行比较。

结果与发现

指标基线 (SOTA)SPS(本工作)相对 Δ
平均 OOD 成功率71.3 %77.5 %+6.2 %
闭环仿真改进(最佳场景)58.1 %78.5 %+20.4 %
推理延迟(每帧)45 ms19 ms2.4× faster
参数数量12 M12 M (unchanged)

消融研究表明,掩码率在 20 %–40 % 之间能够取得最佳权衡;掩码率过高(≥ 60 %)会导致性能下降,而不使用掩码则会重现基线的过拟合行为。重新排列补丁(打乱空间位置)会损害模型,进一步确认保持空间连贯性至关重要。

实际意义

  • 面向生产车队的鲁棒性 – SPS 可以通过一行代码(掩码生成)并且无需额外传感器,直接加入现有的感知到控制流水线,帮助车辆在新颖的天气或道路条件下运行,而无需昂贵的数据采集。
  • 计算资源节省 – 删除约 30 % 的 token 可降低 GPU 内存带宽和推理时间,从而在边缘硬件(例如汽车级 SoC)上实现更高频率的控制回路。
  • 简化数据流水线 – 由于基础模型保持冻结,开发者可以在多个车辆平台之间复用同一个预训练视觉编码器,专注于轻量级策略头的开发。
  • 可迁移性 – 在仿真中训练的同一模型可以直接迁移到真实车辆,表明 SPS 缓解了仿真到现实的差距——这是自动驾驶初创公司面临的主要痛点。
  • 通用方案 – 随机掩码的思路与模型无关;它可以应用于其他基于 token 的感知结构(例如 LiDAR 点云 token、多模态 Transformer),以抑制冗余导致的过拟合。

限制与未来工作

  • 掩码超参数敏感性 – 最优的丢弃率取决于编码器的 token 数量和下游策略的规模;自动调参留待未来研究。
  • 静态掩码分布 – 当前实现以均匀随机方式采样掩码;更复杂的、内容感知的掩码(例如聚焦高熵区域)可能带来进一步提升。
  • 领域范围 – 实验仅覆盖视觉驱动;将 SPS 扩展到多模态设置(摄像头 + LiDAR + 雷达)以及更高分辨率的 token 网格仍是未解之题。
  • 理论保证 – 虽然实证结果强劲,但对为何随机 token dropout 能提升 OOD 不变性的正式分析将强化该论断。

总体而言,本文提供了一种务实、低成本的技术,能够立即采用,以提升端到端自动驾驶系统的可靠性和速度,弥合学术突破与实际部署之间的鸿沟。

作者

  • Amir Mallak
  • Erfan Aasi
  • Shiva Sreeram
  • Tsun-Hsuan Wang
  • Daniela Rus
  • Alaa Maalouf

论文信息

  • arXiv ID: 2601.10707v1
  • 分类: cs.CV, cs.LG, cs.RO
  • 出版日期: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »