SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras

向作者提问

NEW

简介

自动驾驶领域吸引了相当多的研究者致力于通过多摄像头直接推断鸟瞰图中的3D物体。一些尝试也利用单张图像的2D检测器来提高3D检测的性能。然而，这些方法都依赖于一个分为两个阶段的过程，使用独立的检测器，其中2D检测结果仅用于令牌选择或查询初始化。本文提出了一个称为SimPB的单一模型，可以同时从多个摄像头中检测透视图中的2D物体和BEV空间中的3D物体。为了实现这一点，我们引入了一个混合解码器，包括几个多视角2D解码器层和几个3D解码器层，分别为它们各自的检测任务而设计。提出了动态查询分配模块和自适应查询聚合模块，以循环的3D-2D-3D方式不断更新和完善2D和3D结果之间的交互。此外，还利用查询组注意力来加强每个摄像头组内2D查询之间的交互。在实验中，我们在nuScenes数据集上评估了我们的方法，并展示了对于2D和3D检测任务的有希望的结果。我们的代码可在以下链接中获得：https://github.com/nullmax-vision/SimPB。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

SimPB试图解决的问题是在自动驾驶中从多个摄像头中直接推断出鸟瞰图中的三维物体，并利用单个图像的二维检测器来增强三维检测的性能。该方法旨在通过单个模型同时检测透视图中的二维物体和鸟瞰图中的三维物体。
关键思路

论文提出了一种名为SimPB的单一模型，它可以从多个摄像头中同时检测透视图中的二维物体和鸟瞰图中的三维物体。为了实现这一点，论文引入了一个混合解码器，由几个多视角2D解码器层和几个3D解码器层组成，分别设计用于它们各自的检测任务。论文还提出了动态查询分配模块和自适应查询聚合模块，以循环的3D-2D-3D方式持续更新和改进2D和3D结果之间的交互。此外，查询组注意力被利用来加强每个摄像头组内2D查询之间的交互。
其它亮点

论文在nuScenes数据集上进行了实验评估，并展示了对于2D和3D检测任务的有希望的结果。论文提供了开源代码，可在https://github.com/nullmax-vision/SimPB找到。该方法还提出了动态查询分配模块和自适应查询聚合模块，以及查询组注意力，这些方法值得进一步研究。
相关研究

最近在这个领域中，也有其他一些相关研究，如MV3D、AVOD、VoxelNet等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问