- 简介多视角三维物体检测是自动驾驶系统的关键组成部分。现代基于查询的方法主要依赖于数据集特定的三维锚点初始化,引入偏差,或者利用计算效率低、不可扩展的密集注意机制。为了解决这些问题,我们提出了MDHA,一种新颖的稀疏查询框架,它使用来自多视角、多尺度输入的混合锚点构建自适应的三维输出提议。固定的二维锚点与深度预测相结合,形成2.5D锚点,然后投影得到三维提议。为了确保高效率,我们提出的锚点编码器执行稀疏细化并选择前k个锚点和特征。此外,现有的多视角注意机制依赖于将参考点投影到多个图像上,而我们的新颖的循环可变形注意机制仅投影到单个图像,但允许参考点无缝地关注相邻的图像,提高了效率而不影响性能。在nuScenes验证集上,它使用ResNet101骨干网络实现了46.4%的mAP和55.0%的NDS。MDHA明显优于基线,基线将锚点提议建模为可学习的嵌入。
-
- 图表
- 解决问题解决问题:本文旨在解决多视角3D物体检测中的anchor初始化偏差和计算效率问题。
- 关键思路关键思路:文章提出了一种新的稀疏查询框架MDHA,使用多视角、多尺度输入构建自适应的3D输出提案。通过将固定的2D锚点与深度预测相结合形成2.5D锚点,然后投影到3D空间中得到3D提案。同时,采用了基于循环变形的注意力机制来提高计算效率和检测性能。
- 其它亮点其他亮点:MDHA在nuScenes数据集上取得了46.4%的mAP和55.0%的NDS,明显优于基线模型。文章提出的循环变形注意力机制能够提高计算效率和检测性能。
- 相关研究:最近的相关研究包括CenterNet、F-ConvNet和3DSSD等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流