DVPE: Divided View Position Embedding for Multi-View 3D Object Detection

2024年07月24日
  • 简介
    目前,基于稀疏查询的范式在自动驾驶车辆的多视角三维检测方面取得了显著的成功。当前的研究面临的挑战是在聚合多视图特征时在扩大感受野和减少干扰之间取得平衡。此外,不同的相机姿态对于训练全局注意力模型也带来了挑战。为了解决这些问题,本文提出了一种分割视图方法,其中通过可见性交叉注意机制全局建模特征,但只与分割的局部虚拟空间中的部分特征交互。这有效地减少了来自其他不相关特征的干扰,并通过将位置嵌入从相机姿态中解耦来缓解了变压器的训练难度。此外,将2D历史RoI特征纳入物体中心的时间建模中,以利用高级视觉语义信息。模型使用一对多的分配策略进行训练,以促进稳定性。我们的框架名为DVPE,在nuScenes测试集上实现了最先进的性能(57.2%的mAP和64.5%的NDS)。代码将在https://github.com/dop0/DVPE上提供。
  • 图表
  • 解决问题
    本文旨在解决多视角3D检测中的特征聚合问题和全局注意力模型训练难度问题。同时,还探讨了如何利用2D历史RoI特征进行目标中心的时序建模。
  • 关键思路
    本文提出了一种名为DVPE的框架,通过将特征建模为局部虚拟空间中的局部特征,利用可见性跨注意力机制进行全局特征建模,从而解决了特征聚合问题和全局注意力模型训练难度问题。
  • 其它亮点
    本文的实验结果表明,DVPE在nuScenes测试集上取得了57.2%的mAP和64.5%的NDS,取得了最先进的性能。此外,本文还采用了一对多分配策略来提高模型的稳定性。代码已在https://github.com/dop0/DVPE上开源。
  • 相关研究
    在该领域的相关研究包括:MV3D,AVOD,MVF,F-ConvNet,等等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论