RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric Strategies

向作者提问

NEW

简介

最近在基于查询的多摄像头三维物体检测方面取得了一些进展，其特点在于在三维空间中初始化物体查询，然后从透视视图图像中对特征进行采样，以执行多轮查询细化。在这样的框架中，接近相同相机光线的查询点很可能从非常接近的像素中采样类似的特征，导致查询特征不明确和检测准确度降低。因此，我们介绍了RayFormer，一种基于相机光线的查询式三维物体检测器，它将物体查询的初始化和特征提取与相机的光学特性对齐。具体而言，RayFormer通过升降平方法将透视视图图像特征转换为鸟瞰图，并根据相机光线将BEV图分段。物体查询沿每个相机光线均匀稀疏地初始化，有助于将不同的查询投影到图像的不同区域以提取不同的特征。此外，我们利用图像的实例信息通过沿着2D物体检测框的光线进一步涉及沿光线的附加查询来补充均匀初始化的物体查询。为了提取适合不同查询的独特的物体级特征，我们设计了一种光线采样方法，合理组织了图像和鸟瞰图上的特征采样点的分布。我们在nuScenes数据集上进行了大量实验，以验证我们提出的基于光线的模型设计。所提出的RayFormer分别达到了55.5％的mAP和63.3％的NDS。我们的代码将提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决基于查询的多摄像机三维物体检测中存在的问题，即相邻的查询点可能从非常接近的像素中采样相似的特征，导致模糊的查询特征和降低的检测精度。
关键思路

本文提出了一种基于相机射线的查询式三维物体检测器RayFormer，通过将透视图像特征转换成鸟瞰图，并基于相机射线将BEV图分割成不同的区域，从而在每个相机射线上均匀地、稀疏地初始化物体查询，以便将不同的查询投影到图像的不同区域以提取不同的特征。
其它亮点

本文设计了一种适合于在图像和鸟瞰图上组织特征采样点分布的射线采样方法，提取适合于不同查询的唯一的物体级别特征。实验在nuScenes数据集上进行，提出的RayFormer分别达到55.5%的mAP和63.3%的NDS。研究者将开源代码。
相关研究

在最近的研究中，也有一些相关的工作，例如：《Multi-Modal Multi-Task Learning for Autonomous Driving》、《MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问