Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

2024年06月15日
  • 简介
    基于序列化的方法,在将3D体素序列化并分组后输入到Transformer之前,已经证明在3D目标检测中具有有效性。然而,将3D体素序列化为1D序列不可避免地会牺牲体素的空间接近性。由于特征大小的Transformer的二次复杂度,使用现有的基于序列化的方法通过增大组大小来解决这个问题是困难的。受状态空间模型(SSMs)的最新进展启发,我们提出了一个名为Voxel Mamba的Voxel SSM,采用无组策略将整个体素空间序列化为单个序列。 SSM的线性复杂度鼓励我们的无组设计,减轻了体素空间接近性的损失。为了进一步增强空间接近性,我们提出了双尺度SSM块来建立分层结构,使得1D序列化曲线具有更大的感受野,以及在3D空间中更完整的局部区域。此外,我们通过位置编码在无组框架下隐式应用窗口分区,通过编码体素位置信息进一步增强空间接近性。我们在Waymo Open Dataset和nuScenes数据集上的实验表明,Voxel Mamba不仅实现了比最先进方法更高的精度,而且在计算效率方面也具有显着优势。
  • 图表
  • 解决问题
    论文旨在解决3D物体检测中,序列化3D体素会牺牲体素空间相邻性的问题。如何在不牺牲空间相邻性的前提下,将整个体素空间序列化成单一序列?
  • 关键思路
    论文提出使用状态空间模型(SSM)来序列化整个体素空间,避免了序列化过程中牺牲体素空间相邻性的问题。同时,论文提出了双尺度SSM块,建立了层次结构,能够在1D序列化曲线中实现更大的感受野,以及在3D空间中实现更完整的局部区域。
  • 其它亮点
    论文设计了实验来验证Voxel Mamba的性能,使用了Waymo Open Dataset和nuScenes数据集。实验结果表明,Voxel Mamba不仅在准确性上优于现有的方法,而且在计算效率上也有显著优势。此外,论文还使用位置编码隐式地应用窗口分割,进一步增强了体素空间相邻性。论文的代码已经开源。
  • 相关研究
    在序列化3D体素的领域中,已经有一些相关的研究。例如,序列化3D体素并将其分组输入到Transformer中的方法已经被证明在3D物体检测中有效。但是,这些方法会牺牲体素空间相邻性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论