- 简介鸟瞰图(BEV)表示法已成为自动驾驶场景中描述三维空间的主要解决方案。然而,BEV表示法中的对象通常呈小尺寸,相关的点云环境稀疏,这导致可靠的三维感知面临巨大挑战。本文提出了IS-Fusion,一种创新的多模态融合框架,共同捕获实例级和场景级的上下文信息。IS-Fusion与现有方法的不同之处在于,它不仅关注BEV场景级融合,而且明确地融合实例级多模态信息,从而促进了像三维物体检测这样的实例中心任务。它包括一个分层场景融合(HSF)模块和一个实例引导融合(IGF)模块。HSF应用点到网格和网格到区域转换器,在不同的粒度上捕获多模态场景上下文。IGF挖掘实例候选项,探索它们之间的关系,并为每个实例聚合本地多模态上下文。这些实例然后作为指导,增强场景特征并产生一个实例感知的BEV表示法。在具有挑战性的nuScenes基准测试中,IS-Fusion优于迄今为止所有已发布的多模态作品。代码可在以下网址获得:https://github.com/yinjunbo/IS-Fusion。
- 图表
- 解决问题本文试图解决在自动驾驶场景下,Bird's Eye View(BEV)表示法中物体大小小、点云上下文稀疏等问题,提高可靠的三维感知。
- 关键思路IS-Fusion是一个新颖的多模态融合框架,通过同时捕获实例级和场景级上下文信息来提高三维感知的准确性。与现有方法不同的是,IS-Fusion明确地将实例级多模态信息纳入考虑,从而有助于实例中心的任务,如三维物体检测。
- 其它亮点IS-Fusion由Hierarchical Scene Fusion(HSF)模块和Instance-Guided Fusion(IGF)模块组成,分别在不同的粒度上捕获多模态场景上下文信息和实例级上下文信息。IS-Fusion在具有挑战性的nuScenes基准测试中表现优异,超过了迄今为止所有已发布的多模态作品。作者已经开源了代码。
- 最近的相关研究包括:MVF-Net、MMF、FVNet、MV3D等。
沙发等你来抢
去评论
评论
沙发等你来抢