FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

解决问题:本文旨在改进全稀疏三维物体检测,解决FSDv1中手工设计的实例级表示引入的归纳偏差问题,从而提高其通用性。这个问题不是全新的,但是FSDv2提出了一种新的解决方案。

关键思路:本文提出了“虚拟体素”的概念,取代了FSDv1中基于聚类的实例分割。虚拟体素不仅解决了全稀疏检测器中的“中心特征缺失”问题,而且还使框架更加简洁高效。此外,本文还提出了一系列组件来补充虚拟体素的概念,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。

其他亮点:本文在三个大型数据集上进行了实验验证,展示了FSDv2在长距离场景下的卓越性能和通用性。此外,作者提供了全面的实验分析,以阐明FSDv2的工作原理。为了促进可重复性和进一步研究,作者在https://github.com/tusen-ai/SST上开源了FSDv2。

关于作者:(修订中。P.S. 这部分模型幻觉严重,欢迎各位技术专家评论中提建议)

相关研究:近期其他相关的研究包括:

  • "Center-Based 3D Object Detection and Tracking",作者为Xingyi Zhou、Dequan Wang等,发表于CVPR 2020。
  • "PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud",作者为Shi S、Wang X等,发表于CVPR 2019。
  • "Sparse and Dense Data with CNNs: Depth Completion and Semantic Segmentation",作者为Feng Wang、Xiaodan Liang等,发表于CVPR 2018。

论文摘要:本文介绍了FSDv2,这是FSDv1的改进版本,旨在简化之前复杂的结构和手工设计,并消除其引入的归纳偏差,以提高其通用性。为此,引入了“虚拟体素”的概念,它取代了FSDv1中基于聚类的实例分割。虚拟体素不仅解决了完全稀疏检测器中的“中心特征缺失”问题,而且赋予了框架更加优雅和简化的方法。因此,作者开发了一套组件来补充虚拟体素的概念,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。通过实证验证,作者证明了虚拟体素机制在功能上类似于FSDv1中的手工聚类,但更加通用。作者在Waymo开放数据集、Argoverse 2数据集和nuScenes数据集上进行了实验,结果表明,在长距离场景下,FSDv2具有最先进的性能,并且具有通用性,可以在不同场景下实现有竞争力的性能。此外,作者提供了全面的实验分析以阐明FSDv2的工作原理。为了促进再现性和进一步研究,作者已将FSDv2开源在https://github.com/tusen-ai/SST。

内容中包含的图片若涉及版权问题,请及时与我们联系删除