OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection

简介

准确的深度信息对于提高多视角3D物体检测的性能至关重要。尽管一些现有的使用像素级深度监督的多视角3D检测器取得了成功，但它们忽略了两个重要现象：1）从激光雷达点获取的深度监督通常分布在物体的表面上，这对于现有的基于DETR的3D检测器来说并不友好，因为缺乏3D物体中心的深度；2）对于远距离的物体，整个物体的细粒度深度估计更具挑战性。因此，我们认为物体-wise深度（或物体的3D中心）对于准确检测至关重要。在本文中，我们提出了一种名为OPEN的新型多视角3D物体检测器，其主要思想是通过我们提出的物体-wise位置嵌入有效地将物体-wise深度信息注入网络。具体来说，我们首先采用一个物体-wise深度编码器，它以像素级深度图为先验，精确地估计物体-wise深度。然后，我们利用所提出的物体-wise位置嵌入将物体-wise深度信息编码到变压器解码器中，从而为最终检测生成3D物体感知特征。广泛的实验验证了我们所提出的方法的有效性。此外，OPEN在nuScenes测试基准上实现了64.4％的NDS和56.7％的mAP的新的最先进性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

多视角三维物体检测中缺乏准确的物体深度信息，尤其是对于远距离物体的深度估计更加具有挑战性。
关键思路

通过提出对象位置嵌入来有效地将对象深度信息注入网络，从而实现准确的检测。
其它亮点

论文提出了一种名为OPEN的多视角三维物体检测器，通过对象位置嵌入将对象深度信息注入到变换器解码器中，从而实现了3D物体感知特征的检测。论文在nuScenes测试基准上取得了64.4％的NDS和56.7％的mAP的最新性能，并且开源了代码。
相关研究

在这个领域中，最近的相关研究包括："Multi-View 3D Object Detection Network for Autonomous Driving"，"Center-based 3D Object Detection and Tracking"，"Joint 3D Proposal Generation and Object Detection from View Aggregation"等。

OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection

提问交流

提问交流