[Paper] 少看,多开:通过 Foundation Models 的随机补丁选择实现可推广的端到端自动驾驶
发布: (2026年1月16日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2601.10707v1
概述
一项新研究表明,基于 foundation‑model patch features 构建的自动驾驶策略在训练时被迫忽略这些补丁的随机子集后,能够变得更加稳健。通过随机遮蔽补丁描述符,作者显著提升了分布外(OOD)性能,同时将推理时间减半。
关键贡献
- Stochastic‑Patch‑Selection (SPS):一种轻量级训练技巧,随机丢弃每帧中可配置比例的视觉补丁,保持空间布局。
- 冗余分析:使用 PCA 和跨补丁相似度对 BLIP‑2 视觉 token 进行分析,揭示 >90 % 的方差集中在 <30 % 的补丁中。
- 实证提升:SPS 训练的策略在多个 OOD 基准上相比前沿方法实现 平均 6.2 % 的提升,在闭环仿真中最高提升 20.4 %。
- 加速:由于处理的 token 嵌入更少,推理速度提升 2.4 倍。
- 真实世界迁移:同一 SPS 训练模型可直接驱动实体汽车,无需额外微调。
方法论
- 特征提取 – 将每帧相机图像输入冻结的 BLIP‑2 视觉编码器,生成一个 64‑patch 的 token 网格(每个 token 大约是 768 维向量)。
- 冗余量化 – 作者在大量 token 语料上运行 PCA,并计算两两之间的余弦相似度。分析表明,大多数信息在多个 patch 之间是重复的。
- 随机遮蔽 – 在每一次训练步骤中,随机遮蔽一定比例的 patch(例如 30 %)。被遮蔽的 token 被替换为学习得到的 “null” 嵌入,但其余 token 的二维布局保持不变,从而策略仍然能够获得连贯的空间映射。
- 策略网络 – 一个轻量级的 Transformer 解码器接收部分遮蔽后的 token 网格,并端到端输出转向、油门和刹车指令。
- 训练方案 – 在专家驾驶数据上进行标准的模仿学习,并对每帧重新计算 SPS 遮蔽,从而产生同一场景的多种不同 “视角”。
- 评估 – 作者在多个 OOD 赛道(不同天气、光照、全新路线)上进行仿真测试,并在真实车辆上进行实地测试,结果与已发表的最佳端到端基线进行比较。
结果与发现
| 指标 | 基线 (SOTA) | SPS(本工作) | 相对 Δ |
|---|---|---|---|
| 平均 OOD 成功率 | 71.3 % | 77.5 % | +6.2 % |
| 闭环仿真改进(最佳场景) | 58.1 % | 78.5 % | +20.4 % |
| 推理延迟(每帧) | 45 ms | 19 ms | 2.4× faster |
| 参数数量 | 12 M | 12 M (unchanged) | – |
消融研究表明,掩码率在 20 %–40 % 之间能够取得最佳权衡;掩码率过高(≥ 60 %)会导致性能下降,而不使用掩码则会重现基线的过拟合行为。重新排列补丁(打乱空间位置)会损害模型,进一步确认保持空间连贯性至关重要。
实际意义
- 面向生产车队的鲁棒性 – SPS 可以通过一行代码(掩码生成)并且无需额外传感器,直接加入现有的感知到控制流水线,帮助车辆在新颖的天气或道路条件下运行,而无需昂贵的数据采集。
- 计算资源节省 – 删除约 30 % 的 token 可降低 GPU 内存带宽和推理时间,从而在边缘硬件(例如汽车级 SoC)上实现更高频率的控制回路。
- 简化数据流水线 – 由于基础模型保持冻结,开发者可以在多个车辆平台之间复用同一个预训练视觉编码器,专注于轻量级策略头的开发。
- 可迁移性 – 在仿真中训练的同一模型可以直接迁移到真实车辆,表明 SPS 缓解了仿真到现实的差距——这是自动驾驶初创公司面临的主要痛点。
- 通用方案 – 随机掩码的思路与模型无关;它可以应用于其他基于 token 的感知结构(例如 LiDAR 点云 token、多模态 Transformer),以抑制冗余导致的过拟合。
限制与未来工作
- 掩码超参数敏感性 – 最优的丢弃率取决于编码器的 token 数量和下游策略的规模;自动调参留待未来研究。
- 静态掩码分布 – 当前实现以均匀随机方式采样掩码;更复杂的、内容感知的掩码(例如聚焦高熵区域)可能带来进一步提升。
- 领域范围 – 实验仅覆盖视觉驱动;将 SPS 扩展到多模态设置(摄像头 + LiDAR + 雷达)以及更高分辨率的 token 网格仍是未解之题。
- 理论保证 – 虽然实证结果强劲,但对为何随机 token dropout 能提升 OOD 不变性的正式分析将强化该论断。
总体而言,本文提供了一种务实、低成本的技术,能够立即采用,以提升端到端自动驾驶系统的可靠性和速度,弥合学术突破与实际部署之间的鸿沟。
作者
- Amir Mallak
- Erfan Aasi
- Shiva Sreeram
- Tsun-Hsuan Wang
- Daniela Rus
- Alaa Maalouf
论文信息
- arXiv ID: 2601.10707v1
- 分类: cs.CV, cs.LG, cs.RO
- 出版日期: 2026年1月15日
- PDF: 下载 PDF