- 简介当前的多模态驾驶框架通常通过在单模态分支之间使用注意力来进行表示。然而,由于图像和LiDAR分支是独立的,缺乏统一的观察表示,现有的网络仍然抑制了驾驶性能。因此,本文提出了MaskFuser,将各种模态标记为统一的语义特征空间,并为进一步的驾驶行为克隆提供联合表示。在给定统一标记表示的情况下,MaskFuser是第一个引入跨模态掩码自编码器训练的工作。掩码训练通过对掩码标记进行重构来增强融合表示。在架构上,提出了混合融合网络,结合了早期融合和晚期融合的优点:在早期融合阶段,通过执行单调到BEV翻译注意力来融合模态;晚期融合通过将各种模态标记为统一的标记空间,并在其上进行共享编码来实现。MaskFuser在CARLA LongSet6基准评估中分别达到了49.05的驾驶得分和92.85%的路线完成率,比以前的基线最佳结果分别提高了1.74和3.21%。引入的掩码融合增加了在受损感官输入下的驾驶稳定性。在给定传感器掩蔽比率为25%、50%和75%的情况下,MaskFuser在驾驶得分上分别比以前的基线最佳结果提高了6.55(27.8%)、1.53(13.8%)和1.57(30.9%)。
-
- 图表
- 解决问题本文旨在解决多模态驾驶框架中存在的问题,即图像和LiDAR分支独立且缺乏统一的观察表示,从而影响驾驶性能。
- 关键思路本文提出了MaskFuser,将各种模态标记化为统一的语义特征空间,并为进一步的驾驶行为克隆提供联合表示。MaskFuser是第一个引入跨模态掩码自编码器训练的工作。通过对掩码标记进行重构,掩码训练增强了融合表示。MaskFuser采用混合融合网络,结合了早期融合和晚期融合的优点。
- 其它亮点实验结果表明,MaskFuser在CARLA LongSet6基准评估中分别达到了49.05的驾驶得分和92.85%的路线完成率,比以前的基线模型分别提高了1.74和3.21%。MaskFuser在受损感知输入下提高了驾驶稳定性。在25%、50%和75%的感知掩码比率下,MaskFuser在驾驶得分上分别比以前的基线模型提高了6.55(27.8%)、1.53(13.8%)和1.57(30.9%)。
- 最近的相关研究包括:《Multi-modal Fusion with Recurrent Neural Networks for Rumor Detection on Social Media》、《Multi-Modal Deep Learning for Vehicle Detection in Aerial Images》、《Multi-modal Deep Learning for Traffic Sign Recognition in Advanced Driver Assistance Systems》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流