Improving Bird's Eye View Semantic Segmentation by Task Decomposition

2024年04月02日
  • 简介
    本文介绍了鸟瞰图(BEV)中的语义分割在自动驾驶中的重要性。以往的方法通常采用端到端的流程,直接从单目RGB输入预测BEV分割图。然而,由于RGB输入和BEV目标来自不同的视角,直接进行点对点的预测很难进行优化。因此,本文将原始的BEV分割任务分解为两个阶段,即BEV地图重建和RGB-BEV特征对齐。在第一阶段,我们训练了一个BEV自编码器,以恢复给定受损噪声的潜在表示的BEV分割图,这迫使解码器学习典型BEV模式的基本知识。第二阶段涉及将RGB输入图像映射到第一阶段的BEV潜在空间中,直接优化两个视图之间特征级别的相关性。我们的方法简化了将感知和生成结合到不同步骤的复杂性,使模型能够有效处理复杂和具有挑战性的场景。此外,我们提出将BEV分割图从笛卡尔坐标系转换为极坐标系,以建立RGB图像和BEV地图之间的列对应关系。此外,我们的方法不需要多尺度特征或相机内参数进行深度估计,并节省计算开销。在nuScenes和Argoverse上进行了大量实验,证明了我们方法的有效性和效率。代码可在https://github.com/happytianhao/TaDe上获得。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文试图解决如何在鸟瞰视角下进行语义分割的问题,通过将任务分为两个阶段来解决这个问题。
  • 关键思路
    关键思路:论文将鸟瞰视角下的语义分割任务分为两个阶段,分别是BEV地图重建和RGB-BEV特征对齐,通过这种方式简化了任务的复杂性,提高了模型的效率。
  • 其它亮点
    其他亮点:论文提出了将BEV分割图从笛卡尔坐标系转换为极坐标系的方法来建立RGB图像和BEV地图之间的列对齐关系,同时避免了深度估计和摄像机内参的计算开销。实验结果表明该方法在nuScenes和Argoverse数据集上都取得了良好的效果,并且作者已经开源了代码。
  • 相关研究
    相关研究:在该领域的相关研究包括但不限于:End-to-End Bird’s Eye View Instance Segmentation, PointPainting: Sequential Fusion for 3D Object Detection, Complex-YOLO: Real-time 3D Object Detection on Point Clouds等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问