FSD V2：通过虚拟体素改进全稀疏三维物体检测

FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

解决问题：本文旨在改进全稀疏三维物体检测，解决FSDv1中手工设计的实例级表示引入的归纳偏差问题，从而提高其通用性。这个问题不是全新的，但是FSDv2提出了一种新的解决方案。

关键思路：本文提出了“虚拟体素”的概念，取代了FSDv1中基于聚类的实例分割。虚拟体素不仅解决了全稀疏检测器中的“中心特征缺失”问题，而且还使框架更加简洁高效。此外，本文还提出了一系列组件来补充虚拟体素的概念，包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。

其他亮点：本文在三个大型数据集上进行了实验验证，展示了FSDv2在长距离场景下的卓越性能和通用性。此外，作者提供了全面的实验分析，以阐明FSDv2的工作原理。为了促进可重复性和进一步研究，作者在https://github.com/tusen-ai/SST上开源了FSDv2。

关于作者：（修订中。P.S. 这部分模型幻觉严重，欢迎各位技术专家评论中提建议）

相关研究：近期其他相关的研究包括：

"Center-Based 3D Object Detection and Tracking"，作者为Xingyi Zhou、Dequan Wang等，发表于CVPR 2020。
"PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud"，作者为Shi S、Wang X等，发表于CVPR 2019。
"Sparse and Dense Data with CNNs: Depth Completion and Semantic Segmentation"，作者为Feng Wang、Xiaodan Liang等，发表于CVPR 2018。

论文摘要：本文介绍了FSDv2，这是FSDv1的改进版本，旨在简化之前复杂的结构和手工设计，并消除其引入的归纳偏差，以提高其通用性。为此，引入了“虚拟体素”的概念，它取代了FSDv1中基于聚类的实例分割。虚拟体素不仅解决了完全稀疏检测器中的“中心特征缺失”问题，而且赋予了框架更加优雅和简化的方法。因此，作者开发了一套组件来补充虚拟体素的概念，包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。通过实证验证，作者证明了虚拟体素机制在功能上类似于FSDv1中的手工聚类，但更加通用。作者在Waymo开放数据集、Argoverse 2数据集和nuScenes数据集上进行了实验，结果表明，在长距离场景下，FSDv2具有最先进的性能，并且具有通用性，可以在不同场景下实现有竞争力的性能。此外，作者提供了全面的实验分析以阐明FSDv2的工作原理。为了促进再现性和进一步研究，作者已将FSDv2开源在https://github.com/tusen-ai/SST。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

FSD V2：通过虚拟体素改进全稀疏三维物体检测

评论列表

评论