LION: Linear Group RNN for 3D Object Detection in Point Clouds

2024年07月25日
  • 简介
    在大规模三维点云感知任务(例如三维物体检测)中,transformers 在建模远距离关系时的计算成本呈二次增长,这限制了它们的优势。相比之下,线性循环神经网络具有低计算复杂度,适合于远距离建模。为此,我们提出了一个简单而有效的基于线性组循环神经网络的窗口框架,用于准确的三维物体检测,称为 LION。其关键特性是允许在比 transformer 方法更大的组内进行足够的特征交互。然而,将线性组循环神经网络有效地应用于高度稀疏的点云三维物体检测并不容易,因为它在处理空间建模方面存在局限性。为了解决这个问题,我们简单地引入了一个三维空间特征描述符,并将其整合到线性组循环神经网络操作中,以增强其空间特征,而不是盲目地增加体素特征的扫描顺序数量。为了进一步解决高度稀疏的点云问题,我们提出了一种三维体素生成策略,通过线性组循环神经网络作为自回归模型的自然属性来稠密化前景特征。大量实验验证了所提出组件的有效性以及我们的 LION 在不同线性组循环神经网络操作符(包括 Mamba、RWKV 和 RetNet)上的泛化能力。此外,值得一提的是,我们的 LION-Mamba 在 Waymo、nuScenes、Argoverse V2 和 ONCE 数据集上取得了最先进的成果。最后但并非最不重要的是,我们的方法支持种类繁多的先进线性循环神经网络操作符(例如 RetNet、RWKV、Mamba、xLSTM 和 TTT)在小而流行的 KITTI 数据集上,以便快速体验我们的基于线性循环神经网络的框架。
  • 图表
  • 解决问题
    本文旨在解决大规模三维点云感知任务(如三维物体检测)中,使用transformers模型建模长距离关系时的计算成本过高的问题。同时,本文也尝试将线性循环神经网络(RNN)应用于三维物体检测任务中,以实现低计算复杂度和长距离建模的目标。
  • 关键思路
    本文提出了一种基于线性分组RNN的窗口式框架,称为LION,用于准确的三维物体检测。关键特性是允许相比transformers模型更大的特征组进行充分的特征交互。为了解决线性分组RNN在处理高度稀疏点云时的空间建模限制,本文引入了一个三维空间特征描述符,并将其集成到线性分组RNN运算符中,以增强其空间特征。此外,本文还提出了一种三维体素生成策略,用于通过线性分组RNN自然的自回归模型属性来增加前景特征的密度。实验结果表明,所提出的组件和LION的有效性,以及LION在不同线性分组RNN运算符上的泛化性能。
  • 其它亮点
    本文的亮点包括:(1)提出了一种基于线性分组RNN的窗口式框架,用于准确的三维物体检测;(2)提出了一种三维空间特征描述符,用于增强线性分组RNN的空间特征;(3)提出了一种三维体素生成策略,用于增加前景特征的密度;(4)在Waymo、nuScenes、Argoverse V2和ONCE数据集上,LION-Mamba实现了最先进的性能;(5)支持多种先进的线性RNN运算符(如RetNet、RWKV、Mamba、xLSTM和TTT)在小型但流行的KITTI数据集上进行快速体验。
  • 相关研究
    最近的相关研究包括:(1)基于transformers模型的三维物体检测方法,如PointTransformer、3DSSD、PV-RCNN等;(2)基于循环神经网络的三维物体检测方法,如3D-R2N2、VoxelNet、SECOND等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论