- 简介本文介绍了一种名为GEOcc的增强几何占据网络,专门用于视觉环绕视图感知。在最近的视觉中心自动驾驶系统中,3D占据感知通过将环视图像转换为密集的3D网格内的综合几何和语义表示,发挥着关键作用。然而,当前模型仍然面临两个主要挑战:在2D-3D视图转换阶段准确建模深度,以及克服由于稀疏LiDAR监督引起的泛化能力问题。为了解决这些问题,本文采用三种方法:1)集成明确的基于lift的深度预测和隐式的基于投影的变换器,以增强视图转换的密度和鲁棒性;2)利用基于掩码的编码器-解码器架构进行细粒度语义预测;3)在相关阶段采用上下文感知的自我训练损失函数,以补充LiDAR监督,包括从3D占据特征重新渲染2D深度图,并利用图像重建损失除了稀疏的LiDAR地面真值之外,获得更密集的深度监督。我们的方法在Occ3D-nuScenes数据集上实现了最先进的性能,所需的最小图像分辨率和最轻的图像骨干相比当前模型,标志着我们提出的贡献的提高了3.3%。全面的实验也证明了我们的方法相对于基线和替代方法的一致优势。
-
- 图表
- 解决问题本文旨在解决自动驾驶系统中的3D占据感知问题,特别是在没有LiDAR监督的情况下如何将环视图像转换为密集的3D网格表示。
- 关键思路本文提出了一种名为GEOcc的网络,该网络结合了显式基于lift的深度预测和隐式基于投影的变换器,以提高视角转换的密度和鲁棒性。另外,采用基于掩码的编码器-解码器结构进行细粒度语义预测,并使用上下文感知的自训练损失函数来补充LiDAR监督。
- 其它亮点实验结果表明,GEOcc在Occ3D-nuScenes数据集上的表现优于当前模型,且所需的最小图像分辨率和最轻的图像骨干。该方法的亮点包括:使用自训练损失函数补充LiDAR监督,实现了更密集的深度监督;使用基于掩码的编码器-解码器结构进行细粒度语义预测;在没有LiDAR监督的情况下,实现了State-Of-The-Art的性能。
- 在这个领域中,最近的相关研究包括:《PointPainting: Sequential Fusion for 3D Object Detection》、《3D Object Detection for Autonomous Driving from RGB-D Sequences》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流