- 简介3D语义占据预测是自动驾驶领域中的一个关键任务。近期的方法在单一模态下对3D语义占据预测取得了巨大进展。然而,多模态语义占据预测方法在处理不同模态数据融合时,遇到了模态异质性、模态不对齐和模态交互不足等困难,这可能导致重要几何和语义信息的丢失。本文提出了一种新颖的多模态LiDAR-相机3D语义占据预测框架Co-Occ,它将显式的LiDAR-相机特征融合与隐式的体渲染正则化相结合。关键洞见是,特征空间中的体渲染可以有效地弥合3D LiDAR扫描和2D图像之间的差距,同时作为物理正则化来增强LiDAR-相机融合体积表示。具体而言,我们首先提出了一种几何和语义感知融合(GSFusion)模块,通过K最近邻搜索将相邻的相机特征纳入LiDAR特征中,从而显式地增强LiDAR特征。然后,我们采用体渲染将融合特征投影回图像平面,以重建颜色和深度图。这些图像分别由相机的输入图像和由LiDAR导出的深度估计进行监督。在流行的nuScenes和SemanticKITTI基准测试上进行的大量实验验证了我们的Co-Occ对于3D语义占据预测的有效性。项目页面可在https://rorisis.github.io/Co-Occ_project-page/上找到。
-
- 图表
- 解决问题本文旨在解决多模态语义占据预测中的模态异质性、模态不对齐和不足的模态交互问题,以提高预测精度。
- 关键思路本文提出了一种名为Co-Occ的多模态3D语义占据预测框架,将显式的LiDAR-相机特征融合与隐式的体素渲染正则化相结合,利用特征空间中的体素渲染来有效地弥合3D LiDAR扫描和2D图像之间的差距,同时作为物理正则化来增强LiDAR-相机融合的体积表示。
- 其它亮点本文提出了Geometric- and Semantic-aware Fusion(GSFusion)模块,通过K最近邻(KNN)搜索将相邻的相机特征融合到LiDAR特征中。然后,利用体素渲染将融合的特征投影回图像平面,以重建颜色和深度图。这些图像分别由相机输入图像和来自LiDAR的深度估计进行监督。实验结果表明,Co-Occ在nuScenes和SemanticKITTI数据集上的表现优秀。
- 在这个领域中,最近的相关研究包括:《Multi-Modal Domain Adaptation for Semantic Segmentation》、《Multimodal Semantic Segmentation with Dual Modality Representation Learning》、《Multimodal Semantic Segmentation of Autonomous Driving Scenes with Spatiotemporal Context Analysis》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流