- 简介本文介绍了鸟瞰图(BEV)中的语义分割在自动驾驶中的重要性。以往的方法通常采用端到端的流程,直接从单目RGB输入预测BEV分割图。然而,由于RGB输入和BEV目标来自不同的视角,直接进行点对点的预测很难进行优化。因此,本文将原始的BEV分割任务分解为两个阶段,即BEV地图重建和RGB-BEV特征对齐。在第一阶段,我们训练了一个BEV自编码器,以恢复给定受损噪声的潜在表示的BEV分割图,这迫使解码器学习典型BEV模式的基本知识。第二阶段涉及将RGB输入图像映射到第一阶段的BEV潜在空间中,直接优化两个视图之间特征级别的相关性。我们的方法简化了将感知和生成结合到不同步骤的复杂性,使模型能够有效处理复杂和具有挑战性的场景。此外,我们提出将BEV分割图从笛卡尔坐标系转换为极坐标系,以建立RGB图像和BEV地图之间的列对应关系。此外,我们的方法不需要多尺度特征或相机内参数进行深度估计,并节省计算开销。在nuScenes和Argoverse上进行了大量实验,证明了我们方法的有效性和效率。代码可在https://github.com/happytianhao/TaDe上获得。
-
- 图表
- 解决问题解决问题:论文试图解决如何在鸟瞰视角下进行语义分割的问题,通过将任务分为两个阶段来解决这个问题。
- 关键思路关键思路:论文将鸟瞰视角下的语义分割任务分为两个阶段,分别是BEV地图重建和RGB-BEV特征对齐,通过这种方式简化了任务的复杂性,提高了模型的效率。
- 其它亮点其他亮点:论文提出了将BEV分割图从笛卡尔坐标系转换为极坐标系的方法来建立RGB图像和BEV地图之间的列对齐关系,同时避免了深度估计和摄像机内参的计算开销。实验结果表明该方法在nuScenes和Argoverse数据集上都取得了良好的效果,并且作者已经开源了代码。
- 相关研究:在该领域的相关研究包括但不限于:End-to-End Bird’s Eye View Instance Segmentation, PointPainting: Sequential Fusion for 3D Object Detection, Complex-YOLO: Real-time 3D Object Detection on Point Clouds等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流