[Paper] 少看，多开：通过 Foundation Models 的随机补丁选择实现可推广的端到端自动驾驶

发布: 3周前 (2026年1月16日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10707v1

概述

一项新研究表明，基于 foundation‑model patch features 构建的自动驾驶策略在训练时被迫忽略这些补丁的随机子集后，能够变得更加稳健。通过随机遮蔽补丁描述符，作者显著提升了分布外（OOD）性能，同时将推理时间减半。

特征提取 – 将每帧相机图像输入冻结的 BLIP‑2 视觉编码器，生成一个 64‑patch 的 token 网格（每个 token 大约是 768 维向量）。
冗余量化 – 作者在大量 token 语料上运行 PCA，并计算两两之间的余弦相似度。分析表明，大多数信息在多个 patch 之间是重复的。
随机遮蔽 – 在每一次训练步骤中，随机遮蔽一定比例的 patch（例如 30 %）。被遮蔽的 token 被替换为学习得到的 “null” 嵌入，但其余 token 的二维布局保持不变，从而策略仍然能够获得连贯的空间映射。
策略网络 – 一个轻量级的 Transformer 解码器接收部分遮蔽后的 token 网格，并端到端输出转向、油门和刹车指令。
训练方案 – 在专家驾驶数据上进行标准的模仿学习，并对每帧重新计算 SPS 遮蔽，从而产生同一场景的多种不同 “视角”。
评估 – 作者在多个 OOD 赛道（不同天气、光照、全新路线）上进行仿真测试，并在真实车辆上进行实地测试，结果与已发表的最佳端到端基线进行比较。

指标	基线 (SOTA)	SPS（本工作）	相对 Δ
平均 OOD 成功率	71.3 %	77.5 %	+6.2 %
闭环仿真改进（最佳场景）	58.1 %	78.5 %	+20.4 %
推理延迟（每帧）	45 ms	19 ms	2.4× faster
参数数量	12 M	12 M (unchanged)	–

消融研究表明，掩码率在 20 %–40 % 之间能够取得最佳权衡；掩码率过高（≥ 60 %）会导致性能下降，而不使用掩码则会重现基线的过拟合行为。重新排列补丁（打乱空间位置）会损害模型，进一步确认保持空间连贯性至关重要。

面向生产车队的鲁棒性 – SPS 可以通过一行代码（掩码生成）并且无需额外传感器，直接加入现有的感知到控制流水线，帮助车辆在新颖的天气或道路条件下运行，而无需昂贵的数据采集。
计算资源节省 – 删除约 30 % 的 token 可降低 GPU 内存带宽和推理时间，从而在边缘硬件（例如汽车级 SoC）上实现更高频率的控制回路。
简化数据流水线 – 由于基础模型保持冻结，开发者可以在多个车辆平台之间复用同一个预训练视觉编码器，专注于轻量级策略头的开发。
可迁移性 – 在仿真中训练的同一模型可以直接迁移到真实车辆，表明 SPS 缓解了仿真到现实的差距——这是自动驾驶初创公司面临的主要痛点。
通用方案 – 随机掩码的思路与模型无关；它可以应用于其他基于 token 的感知结构（例如 LiDAR 点云 token、多模态 Transformer），以抑制冗余导致的过拟合。

总体而言，本文提供了一种务实、低成本的技术，能够立即采用，以提升端到端自动驾驶系统的可靠性和速度，弥合学术突破与实际部署之间的鸿沟。