See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection

向作者提问

NEW

简介

最近在端到端自动驾驶方面的进展表明，基于基础模型提取的、与图像块对齐的特征所训练出的策略，在面对分布外（OOD）场景时具有更好的泛化能力。我们提出假设：由于自注意力机制的存在，每个图像块的特征都隐式地嵌入或包含了来自所有其他图像块的信息，尽管这些信息以不同的方式和强度呈现，从而导致这些描述符具有高度冗余性。我们通过主成分分析（PCA）和跨图像块相似性来量化这类（BLIP2）特征中的冗余程度：90%的方差仅由64个主成分中的17个即可捕获，且不同标记之间普遍存在强烈的相互关联。在如此重叠的信息上进行训练，会使策略过度拟合虚假的相关性，从而损害其在分布外场景下的鲁棒性。为此，我们提出了随机图像块选择（Stochastic-Patch-Selection, SPS）方法——一种简单而有效的策略学习方案，可提升模型的鲁棒性、泛化能力和效率。对于每一帧输入，SPS随机屏蔽一部分图像块描述符，不将其送入策略模型，同时保留剩余图像块的空间布局结构。因此，策略模型能够获得同一场景的不同但完整的随机视图：每一个随机选取的图像块子集都相当于世界的一种不同但依然合理且连贯的投影。这样一来，策略的决策便依赖于那些对具体保留哪些标记具有不变性的特征。大量实验结果证实，在各类分布外场景下，我们的方法均优于当前最先进的技术（SOTA），在闭环仿真中平均性能提升达6.2%，最高提升幅度可达20.4%，同时推理速度提高了2.4倍。我们对掩码比例和图像块特征重组方式进行了消融研究，共训练并评估了9个系统，其中有8个系统的性能超过了此前的SOTA。最后，我们还验证了所学习到的同一策略无需任何调优即可成功迁移到真实世界的物理车辆上运行。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决端到端自动驾驶策略在面对分布外（OOD）场景时泛化能力差的问题。现有方法使用基于基础模型提取的patch对齐特征进行训练，但由于这些特征之间存在高度冗余和隐含的全局依赖（源于自注意力机制），策略容易过拟合于虚假相关性，导致在OOD环境下性能下降。这个问题在当前自动驾驶与视觉表征学习交叉领域日益重要，虽非全新问题，但结合基础模型特征冗余性的分析视角较新颖。
关键思路

提出Stochastic-Patch-Selection（SPS）方法：在每帧输入中随机掩码一部分图像块（patch）特征，仅将剩余的特征送入策略网络，同时保持其空间布局不变。通过为策略提供同一场景的不同、随机但语义完整的‘视图’，强制其学习对特定token存在与否不变的鲁棒特征。相比直接使用完整特征图的方法，SPS首次从缓解基础模型内部冗余导致过拟合的角度出发，利用随机子集训练提升泛化性，思路简洁且具有启发性。
其它亮点

实验设计全面，在多个OOD场景下进行了闭环仿真测试，结果显示SPS平均提升6.2%，最高达20.4%，并实现2.4倍推理加速；进行了9组消融实验（不同掩码率与特征重组方式），其中8组超过现有SOTA，验证了方法鲁棒性；最关键的是，所学策略无需任何调优即成功迁移到真实物理车辆上运行，证明了极强的现实可部署性；论文未明确提及是否开源代码，但其实验充分性和实际迁移结果极具说服力，未来可研究方向包括将SPS扩展至多模态融合架构、理论分析冗余与泛化边界的关系。
相关研究

1. BEVFormer: Learning Bird’s Eye View Representation from Multi-Camera Images via Spatiotemporal Transformers 2. DriveLM: Structured Scene Understanding and Decision Making for Autonomous Driving 3. Vision Transformers Improve Out-of-Distribution Robustness in Medical Imaging 4. Masked Autoencoders Are Scalable Vision Learners 5. Robustness of Self-Supervised Learning in Driving Policies under Distribution Shift

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问