CVPR 2022 | 清华&字节&京东提出BrT：用于视觉和点云3D目标检测的桥接Transformer

本文提出BrT(Bridged Transformer)：一种用于 3D 目标检测的端到端架构，简单而有效，它学习从点和图像块中识别 3D 和 2D 目标边界框，可以无缝地将点云与多视图图像融合。

论文链接：https://link.zhihu.com/?target=https%3A//openaccess.thecvf.com/content/CVPR2022/html/Wang_Bridged_Transformer_for_Vision_and_Point_Cloud_3D_Object_Detection_CVPR_2022_paper.html

近，有一种利用多种输入数据源的趋势，例如用通常具有更丰富色彩和更少噪声的 2D 图像来补充 3D 点云。然而，由于 2D 和 3D 表示的异构几何结构，它阻止了我们应用现成的神经网络来实现多模态融合。

为此，我们提出了桥接Transformer (BrT)，这是一种用于 3D 目标检测的端到端架构。

BrT 简单而有效，它学习从点和图像块中识别 3D 和 2D 目标边界框。 BrT 的一个关键要素在于利用对象查询来桥接 3D 和 2D 空间，这在 Transformer 中统一了不同的数据表示来源。我们采用了一种通过点对块投影实现的特征聚合形式，进一步加强了图像和点之间的交互。此外，BrT 可以无缝地将点云与多视图图像融合。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022 | 清华&字节&京东提出BrT：用于视觉和点云3D目标检测的桥接Transformer

评论列表

评论