本文提出BrT(Bridged Transformer):一种用于 3D 目标检测的端到端架构, 简单而有效,它学习从点和图像块中识别 3D 和 2D 目标边界框,可以无缝地将点云与多视图图像融合。

论文链接:https://link.zhihu.com/?target=https%3A//openaccess.thecvf.com/content/CVPR2022/html/Wang_Bridged_Transformer_for_Vision_and_Point_Cloud_3D_Object_Detection_CVPR_2022_paper.html

近,有一种利用多种输入数据源的趋势,例如用通常具有更丰富色彩和更少噪声的 2D 图像来补充 3D 点云。然而,由于 2D 和 3D 表示的异构几何结构,它阻止了我们应用现成的神经网络来实现多模态融合。

为此,我们提出了桥接Transformer (BrT),这是一种用于 3D 目标检测的端到端架构。

BrT 简单而有效,它学习从点和图像块中识别 3D 和 2D 目标边界框。 BrT 的一个关键要素在于利用对象查询来桥接 3D 和 2D 空间,这在 Transformer 中统一了不同的数据表示来源。我们采用了一种通过点对块投影实现的特征聚合形式,进一步加强了图像和点之间的交互。此外,BrT 可以无缝地将点云与多视图图像融合。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除