GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

2024年05月27日
  • 简介
    3D语义占据预测旨在获取周围场景的3D细粒度几何和语义,是视觉中心自动驾驶的鲁棒性的重要任务。大多数现有方法使用像体素这样的密集网格作为场景表示,这忽略了占据的稀疏性和物体尺度的多样性,从而导致资源分配不平衡。为了解决这个问题,我们提出了一种以物体为中心的表示方法,用稀疏的3D语义高斯来描述3D场景,其中每个高斯表示一个灵活的感兴趣区域及其语义特征。我们通过注意机制从图像中聚合信息,并迭代地改进3D高斯的属性,包括位置、协方差和语义。然后,我们提出了一种高效的高斯到体素喷溅方法,以生成3D占据预测,该方法仅聚合某个位置的相邻高斯。我们在广泛采用的nuScenes和KITTI-360数据集上进行了大量实验。实验结果表明,GaussianFormer仅消耗17.8% - 24.8%的内存,就能实现与最先进方法相当的性能。代码可在以下网址找到:https://github.com/huang-yh/GaussianFormer。
  • 图表
  • 解决问题
    论文旨在解决3D语义占用预测中使用稠密网格表示法所带来的资源分配不平衡问题,提出了一种基于对象的表示法,使用稀疏的3D语义高斯函数来描述场景。
  • 关键思路
    论文的关键思路是使用对象中心的表示法来描述3D场景,使用稀疏的3D语义高斯函数来代替传统的稠密网格表示法,并使用注意力机制和迭代方法来优化高斯函数的属性,最后使用高斯到体素的喷洒方法生成3D占用预测。
  • 其它亮点
    论文实现了一个高效的3D语义占用预测模型,名为GaussianFormer,并在nuScenes和KITTI-360数据集上进行了广泛的实验。实验结果表明,GaussianFormer在性能方面与现有的最先进方法相当,并且仅使用了它们17.8%-24.8%的内存消耗。此外,论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:"VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection","PointPillars: Fast Encoders for Object Detection from Point Clouds","RangeNet++: Fast and Accurate LiDAR Semantic Segmentation"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论