Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

2024年06月15日
  • 简介
    序列化方法是将3D体素序列化并将其分组成多个序列,然后输入到Transformers中,在3D目标检测中证明了其有效性。然而,将3D体素序列化为1D序列将不可避免地牺牲体素的空间接近性。由于Transformers的特征大小具有二次复杂度,因此现有的基于序列化的方法难以通过增大组大小来解决这个问题。受状态空间模型(SSMs)的最新进展启发,我们提出了一种名为Voxel Mamba的Voxel SSM,采用无组策略将整个体素空间序列化为单个序列。SSMs的线性复杂度鼓励我们采用无组设计,缓解体素空间接近性的损失。为了进一步增强空间接近性,我们提出了双尺度SSM块,建立分层结构,在1D序列化曲线中实现更大的感受野以及更完整的3D空间局部区域。此外,我们通过位置编码在无组框架下隐式应用窗口分割,进一步通过编码体素位置信息增强空间接近性。我们在Waymo开放数据集和nuScenes数据集上的实验表明,Voxel Mamba不仅比最先进的方法实现了更高的准确性,而且在计算效率方面也具有显著优势。
  • 图表
  • 解决问题
    论文旨在解决3D物体检测中,序列化3D体素并将其分组输入到Transformer中时,会牺牲体素的空间邻近性的问题。作者提出了一种无组策略的Voxel SSM解决方案来缓解这个问题。
  • 关键思路
    Voxel Mamba采用无组策略将整个体素空间序列化为单个序列。SSMs的线性复杂度鼓励了无组设计,减轻了体素空间邻近性的损失。作者提出了双尺度SSM块来建立分层结构,进一步增强了体素的空间邻近性。通过位置编码隐式地应用窗口分区,进一步增强了体素的空间邻近性。
  • 其它亮点
    论文的实验结果表明,Voxel Mamba不仅在计算效率方面具有显著优势,而且比现有的最先进方法具有更高的准确性。作者在Waymo Open Dataset和nuScenes数据集上进行了实验,并开源了代码。
  • 相关研究
    最近的相关研究包括:"Voxel Transformers for Learning on Point Clouds","PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论