MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection

简介

多视角三维物体检测是自动驾驶系统的关键组成部分。现代基于查询的方法主要依赖于数据集特定的三维锚点初始化，引入偏差，或者利用计算效率低、不可扩展的密集注意机制。为了解决这些问题，我们提出了MDHA，一种新颖的稀疏查询框架，它使用来自多视角、多尺度输入的混合锚点构建自适应的三维输出提议。固定的二维锚点与深度预测相结合，形成2.5D锚点，然后投影得到三维提议。为了确保高效率，我们提出的锚点编码器执行稀疏细化并选择前k个锚点和特征。此外，现有的多视角注意机制依赖于将参考点投影到多个图像上，而我们的新颖的循环可变形注意机制仅投影到单个图像，但允许参考点无缝地关注相邻的图像，提高了效率而不影响性能。在nuScenes验证集上，它使用ResNet101骨干网络实现了46.4%的mAP和55.0%的NDS。MDHA明显优于基线，基线将锚点提议建模为可学习的嵌入。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本文旨在解决多视角3D物体检测中的anchor初始化偏差和计算效率问题。
关键思路

关键思路：文章提出了一种新的稀疏查询框架MDHA，使用多视角、多尺度输入构建自适应的3D输出提案。通过将固定的2D锚点与深度预测相结合形成2.5D锚点，然后投影到3D空间中得到3D提案。同时，采用了基于循环变形的注意力机制来提高计算效率和检测性能。
其它亮点

其他亮点：MDHA在nuScenes数据集上取得了46.4%的mAP和55.0%的NDS，明显优于基线模型。文章提出的循环变形注意力机制能够提高计算效率和检测性能。
相关研究

相关研究：最近的相关研究包括CenterNet、F-ConvNet和3DSSD等。

MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection

提问交流

提问交流