马里兰大学帕克分校 | M3DeTR：基于Transformer的多表示多尺度的3D目标检测

论文标题：M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

作者单位：马里兰大学帕克分校 & 复旦大学

据作者称，这是第一个基于Transformer的3D目标检测统一网络，多表示/多尺度/相互关系的端到端模式，表现SOTA！性能优于PV-RCNN、RangeDet等网络。

我们提出了一种用于3D目标检测的新颖架构M3DeTR，该架构结合了基于多尺度特征金字塔的不同点云表示（raw，体素，鸟瞰图）和不同的特征尺度。 M3DeTR是统一多个点云表示形式，特征尺度以及使用Transformer同时对点云之间的相互关系进行建模的第一种方法。我们进行了广泛的消融实验，以突出融合表示法和尺度以及对关系进行建模的好处。我们的方法在KITTI 3D目标检测数据集和Waymo Open Dataset上实现了最先进的性能。结果表明，对于Waymo Open Dataset上的所有类别，M3DeTR均将基线显著提高了1.48％mAP。尤其是，我们的方法在针对汽车和cyclist的众所周知的KITTI 3D检测基准中排名第一，在具有单帧点云输入的Waymo Open Dataset上排名第一。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

马里兰大学帕克分校 | M3DeTR：基于Transformer的多表示多尺度的3D目标检测

评论列表

评论