M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving

2024年03月19日
  • 简介
    自动驾驶的端到端技术已经取得了显著进展。然而,由于以下原因,自动驾驶汽车的广泛部署尚未实现:1)多模态环境感知效率低下:如何更有效地整合来自多模态传感器的数据;2)非人类的场景理解:如何像有经验的驾驶员一样有效地定位和预测交通场景中的关键风险因素。为了克服这些挑战,在本文中,我们提出了一种用于自动驾驶的多模态融合变压器,其中包括驾驶员注意力(M2DA)。为了更好地融合多模态数据并实现不同模态之间更高的对齐度,提出了一种基于激光雷达-视觉-注意力融合(LVAFusion)的新型模块。通过融合驾驶员的注意力,我们赋予了自动驾驶汽车类似于人类的场景理解能力,以精确定位复杂场景中的关键区域并确保安全。我们在CARLA模拟器上进行了实验,并在闭环基准测试中以较少的数据实现了最先进的性能。源代码可在https://anonymous.4open.science/r/M2DA-4772找到。
  • 图表
  • 解决问题
    论文旨在解决自动驾驶中的多模态环境感知和非人类场景理解问题,提高自动驾驶的安全性和效率。
  • 关键思路
    论文提出了一种融合多模态数据和驾驶员注意力的自动驾驶模型M2DA,其中包括一种新颖的Lidar-Vision-Attention-based Fusion (LVAFusion)模块,能够更好地整合多模态数据,提高不同模态之间的一致性;同时,将驾驶员的注意力引入模型中,使自动驾驶能够像人类驾驶员一样理解复杂场景和识别关键区域,从而提高安全性。
  • 其它亮点
    论文在CARLA模拟器上进行了实验,并在闭环基准测试中取得了最先进的性能,同时使用了较少的数据;论文提供了源代码,可供研究者使用;该模型的驾驶员注意力机制值得进一步研究。
  • 相关研究
    近期在这个领域中的相关研究包括:'End-to-End Multi-Modal Multi-Task Vehicle Control for Autonomous Driving','Multi-modal Perception for Autonomous Driving: Dataset, Models and Metrics'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论