MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report

简介

这篇文章讲述了在没有高清地图的情况下，自动驾驶需要更高级的场景理解能力。在这个比赛中，主办方提供了多角度的相机图像和标准清晰度的地图，以探索场景推理能力的边界。我们发现，大多数现有算法从这些多角度图像中构建鸟瞰图特征，并使用多任务头来勾勒道路中心线、边界线、人行道和其他区域。然而，在道路的远端，这些算法表现不佳，在图像的主要主体被遮挡时也很难处理。因此，在这个比赛中，我们不仅使用多角度图像作为输入，还加入了标准清晰度地图来解决这个问题。我们使用地图编码器预训练来增强网络的几何编码能力，并利用 YOLOX 来提高交通要素检测精度。此外，为了实现更高的精度，我们还创新性地引入了 LDTR 和辅助任务来进行区域检测。结果，我们的最终 OLUS 得分为 0.58。
图表
解决问题

本论文旨在解决自动驾驶中高清地图不可用时，场景理解能力的提高问题。如何在没有高清地图的情况下，进行高水平的场景理解？
关键思路

论文提出了一种解决方案，即在多视角图像的基础上，结合标准分辨率地图，采用地图编码器预训练、YOLOX和LDTR等创新方法，提高了网络的几何编码能力和交通要素检测的精度。
其它亮点

论文采用多视角图像和标准分辨率地图相结合的方式提高场景理解能力；采用地图编码器预训练、YOLOX和LDTR等创新方法，提高了网络的几何编码能力和交通要素检测的精度；实验结果表明，该方法的OLUS得分为0.58。
相关研究

在该领域中，最近的相关研究包括：1）基于深度学习的自动驾驶场景理解方法研究；2）自动驾驶中的高清地图构建和使用方法研究。

MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report

评论