SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception

2024年03月15日
  • 简介
    近年来,多模态3D物体检测取得了显著进展。然而,大多数现有方法由于依赖密集的3D特征,很难适用于长距离场景,这会大幅增加计算需求和内存使用。本文引入SparseFusion,这是一个全新的多模态融合框架,完全基于稀疏的3D特征,以促进高效的长距离感知。我们方法的核心是Sparse View Transformer模块,它可以选择性地将2D图像空间中的感兴趣区域提升到统一的3D空间中。所提出的模块从语义和几何两个方面引入了稀疏性,仅填充前景物体可能存在的网格。全面的实验验证了我们框架在长距离3D感知方面的效率和有效性。值得注意的是,在长距离Argoverse2数据集上,SparseFusion相比密集检测器减少了内存占用并加速了推理约两倍。它还达到了41.2%的mAP和32.1%的CDS的最先进性能。SparseFusion的通用性也在时间物体检测任务和3D车道检测任务中得到了验证。代码将在接受后发布。
  • 图表
  • 解决问题
    解决问题:论文旨在解决长距离场景下多模态三维物体检测中的计算和内存开销问题。
  • 关键思路
    关键思路:论文提出了一种基于稀疏三维特征的多模态融合框架SparseFusion,其中核心是Sparse View Transformer模块,通过选择性地将2D图像空间中的感兴趣区域提升到统一的3D空间中,从语义和几何两个方面引入稀疏性,只填充前景物体可能存在的网格。
  • 其它亮点
    其他亮点:论文在长距离Argoverse2数据集上实现了与稠密检测器相比约两倍的内存占用和推理加速,并获得了41.2%的mAP和32.1%的CDS的最新性能。此外,SparseFusion还在时间物体检测任务和3D车道检测任务中表现出了其通用性。代码将在接受后发布。
  • 相关研究
    相关研究:最近的相关研究包括:PointRCNN,STD,Sparse-to-Dense,等等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论