MaskFuser: Masked Fusion of Joint Multi-Modal Tokenization for End-to-End Autonomous Driving

向作者提问

NEW

简介

当前的多模态驾驶框架通常通过在单模态分支之间使用注意力来进行表示。然而，由于图像和LiDAR分支是独立的，缺乏统一的观察表示，现有的网络仍然抑制了驾驶性能。因此，本文提出了MaskFuser，将各种模态标记为统一的语义特征空间，并为进一步的驾驶行为克隆提供联合表示。在给定统一标记表示的情况下，MaskFuser是第一个引入跨模态掩码自编码器训练的工作。掩码训练通过对掩码标记进行重构来增强融合表示。在架构上，提出了混合融合网络，结合了早期融合和晚期融合的优点：在早期融合阶段，通过执行单调到BEV翻译注意力来融合模态；晚期融合通过将各种模态标记为统一的标记空间，并在其上进行共享编码来实现。MaskFuser在CARLA LongSet6基准评估中分别达到了49.05的驾驶得分和92.85%的路线完成率，比以前的基线最佳结果分别提高了1.74和3.21%。引入的掩码融合增加了在受损感官输入下的驾驶稳定性。在给定传感器掩蔽比率为25％、50％和75％的情况下，MaskFuser在驾驶得分上分别比以前的基线最佳结果提高了6.55（27.8％）、1.53（13.8％）和1.57（30.9％）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多模态驾驶框架中存在的问题，即图像和LiDAR分支独立且缺乏统一的观察表示，从而影响驾驶性能。
关键思路

本文提出了MaskFuser，将各种模态标记化为统一的语义特征空间，并为进一步的驾驶行为克隆提供联合表示。MaskFuser是第一个引入跨模态掩码自编码器训练的工作。通过对掩码标记进行重构，掩码训练增强了融合表示。MaskFuser采用混合融合网络，结合了早期融合和晚期融合的优点。
其它亮点

实验结果表明，MaskFuser在CARLA LongSet6基准评估中分别达到了49.05的驾驶得分和92.85%的路线完成率，比以前的基线模型分别提高了1.74和3.21%。MaskFuser在受损感知输入下提高了驾驶稳定性。在25％、50％和75％的感知掩码比率下，MaskFuser在驾驶得分上分别比以前的基线模型提高了6.55（27.8％）、1.53（13.8％）和1.57（30.9％）。
相关研究

最近的相关研究包括：《Multi-modal Fusion with Recurrent Neural Networks for Rumor Detection on Social Media》、《Multi-Modal Deep Learning for Vehicle Detection in Aerial Images》、《Multi-modal Deep Learning for Traffic Sign Recognition in Advanced Driver Assistance Systems》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问