GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision

向作者提问

NEW

简介

本文介绍了一种名为GEOcc的增强几何占据网络，专门用于视觉环绕视图感知。在最近的视觉中心自动驾驶系统中，3D占据感知通过将环视图像转换为密集的3D网格内的综合几何和语义表示，发挥着关键作用。然而，当前模型仍然面临两个主要挑战：在2D-3D视图转换阶段准确建模深度，以及克服由于稀疏LiDAR监督引起的泛化能力问题。为了解决这些问题，本文采用三种方法：1）集成明确的基于lift的深度预测和隐式的基于投影的变换器，以增强视图转换的密度和鲁棒性；2）利用基于掩码的编码器-解码器架构进行细粒度语义预测；3）在相关阶段采用上下文感知的自我训练损失函数，以补充LiDAR监督，包括从3D占据特征重新渲染2D深度图，并利用图像重建损失除了稀疏的LiDAR地面真值之外，获得更密集的深度监督。我们的方法在Occ3D-nuScenes数据集上实现了最先进的性能，所需的最小图像分辨率和最轻的图像骨干相比当前模型，标志着我们提出的贡献的提高了3.3％。全面的实验也证明了我们的方法相对于基线和替代方法的一致优势。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决自动驾驶系统中的3D占据感知问题，特别是在没有LiDAR监督的情况下如何将环视图像转换为密集的3D网格表示。
关键思路

本文提出了一种名为GEOcc的网络，该网络结合了显式基于lift的深度预测和隐式基于投影的变换器，以提高视角转换的密度和鲁棒性。另外，采用基于掩码的编码器-解码器结构进行细粒度语义预测，并使用上下文感知的自训练损失函数来补充LiDAR监督。
其它亮点

实验结果表明，GEOcc在Occ3D-nuScenes数据集上的表现优于当前模型，且所需的最小图像分辨率和最轻的图像骨干。该方法的亮点包括：使用自训练损失函数补充LiDAR监督，实现了更密集的深度监督；使用基于掩码的编码器-解码器结构进行细粒度语义预测；在没有LiDAR监督的情况下，实现了State-Of-The-Art的性能。
相关研究

在这个领域中，最近的相关研究包括：《PointPainting: Sequential Fusion for 3D Object Detection》、《3D Object Detection for Autonomous Driving from RGB-D Sequences》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问