Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction

2024年04月06日
  • 简介
    3D语义占据预测是自动驾驶领域中的一个关键任务。近期的方法在单一模态下对3D语义占据预测取得了巨大进展。然而,多模态语义占据预测方法在处理不同模态数据融合时,遇到了模态异质性、模态不对齐和模态交互不足等困难,这可能导致重要几何和语义信息的丢失。本文提出了一种新颖的多模态LiDAR-相机3D语义占据预测框架Co-Occ,它将显式的LiDAR-相机特征融合与隐式的体渲染正则化相结合。关键洞见是,特征空间中的体渲染可以有效地弥合3D LiDAR扫描和2D图像之间的差距,同时作为物理正则化来增强LiDAR-相机融合体积表示。具体而言,我们首先提出了一种几何和语义感知融合(GSFusion)模块,通过K最近邻搜索将相邻的相机特征纳入LiDAR特征中,从而显式地增强LiDAR特征。然后,我们采用体渲染将融合特征投影回图像平面,以重建颜色和深度图。这些图像分别由相机的输入图像和由LiDAR导出的深度估计进行监督。在流行的nuScenes和SemanticKITTI基准测试上进行的大量实验验证了我们的Co-Occ对于3D语义占据预测的有效性。项目页面可在https://rorisis.github.io/Co-Occ_project-page/上找到。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决多模态语义占据预测中的模态异质性、模态不对齐和不足的模态交互问题,以提高预测精度。
  • 关键思路
    本文提出了一种名为Co-Occ的多模态3D语义占据预测框架,将显式的LiDAR-相机特征融合与隐式的体素渲染正则化相结合,利用特征空间中的体素渲染来有效地弥合3D LiDAR扫描和2D图像之间的差距,同时作为物理正则化来增强LiDAR-相机融合的体积表示。
  • 其它亮点
    本文提出了Geometric- and Semantic-aware Fusion(GSFusion)模块,通过K最近邻(KNN)搜索将相邻的相机特征融合到LiDAR特征中。然后,利用体素渲染将融合的特征投影回图像平面,以重建颜色和深度图。这些图像分别由相机输入图像和来自LiDAR的深度估计进行监督。实验结果表明,Co-Occ在nuScenes和SemanticKITTI数据集上的表现优秀。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Multi-Modal Domain Adaptation for Semantic Segmentation》、《Multimodal Semantic Segmentation with Dual Modality Representation Learning》、《Multimodal Semantic Segmentation of Autonomous Driving Scenes with Spatiotemporal Context Analysis》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问