- 简介本文提出了PoIFusion,这是一个简单而有效的多模态3D物体检测框架,用于在兴趣点(简称PoI)处融合RGB图像和LiDAR点云的信息。技术上,我们的PoIFusion遵循基于查询的物体检测范例,将物体查询表述为动态的3D框。PoIs是从每个查询框动态生成的,作为表示3D物体的关键点,并在多模态融合中扮演基本单元的角色。具体而言,我们将PoIs投影到每种模态的视图中,采样相应的特征,并通过动态融合块在每个PoI处集成多模态特征。此外,从相同查询框派生的PoIs的特征被聚合在一起,以更新查询特征。我们的方法避免了视角转换引起的信息丢失,并消除了计算密集型的全局注意力,使多模态3D物体检测器更具适用性。我们在nuScenes数据集上进行了广泛的实验以评估我们的方法。值得注意的是,我们的PoIFusion实现了74.9%的NDS和73.4%的mAP,在多模态3D物体检测基准测试中创下了最新的记录。代码将通过\url{https://djiajunustc.github.io/projects/poifusion}提供。
- 图表
- 解决问题本文旨在提出一个简单而有效的多模态三维物体检测框架,将RGB图像和LiDAR点云信息在兴趣点处进行融合。该框架使用动态三维框将物体查询表述为查询,从而生成适应性的兴趣点来表示三维物体,作为多模态融合的基本单元。
- 关键思路本文提出了一种新的查询式三维物体检测范式,通过动态三维框将物体查询表述为查询,并在查询框上实时生成适应性的兴趣点,作为多模态融合的基本单元。通过将兴趣点投影到每种模态的视图中来采样相应的特征,并通过动态融合块在每个兴趣点上集成多模态特征。此外,从同一查询框派生的兴趣点的特征被聚合在一起,以更新查询特征,从而避免了由视图变换引起的信息丢失,并消除了计算密集型的全局注意力,使多模态三维物体检测器更具适用性。
- 其它亮点本文在nuScenes数据集上进行了广泛的实验,取得了74.9%的NDS和73.4%的mAP,创造了多模态三维物体检测基准的最新记录。代码将通过https://djiajunustc.github.io/projects/poifusion提供。
- 在最近的相关研究中,还有一些相关的研究被进行,例如:'MVF-Net: Multi-View 3D Fusion Network for Object Detection'、'ContFuse: Continuous Fusion for RGB-D Scans'、'FVNet: 3D Front-View Proposal Generation for Real-Time Object Detection from Point Clouds'等。
沙发等你来抢
去评论
评论
沙发等你来抢