Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction

2024年04月06日
  • 简介
    3D语义占据预测是自动驾驶领域中的关键任务。近期的方法在单一模态下取得了3D语义占据预测方面的巨大进展。然而,多模态语义占据预测方法在处理不同模态数据融合时,遇到了模态异质性、模态错位和模态交互不足等困难,这可能导致重要的几何和语义信息的丢失。本文提出了一种新颖的多模态(即LiDAR-相机)3D语义占据预测框架,称为Co-Occ,它将显式的LiDAR-相机特征融合与隐式的体渲染正则化相结合。关键的洞见是特征空间中的体渲染可以有效地弥合3D LiDAR扫描和2D图像之间的差距,同时作为物理正则化来增强LiDAR-相机融合的体积表示。具体而言,我们首先提出了一个几何和语义感知融合(GSFusion)模块,通过K最近邻(KNN)搜索将相邻的相机特征纳入LiDAR特征中,以显式地增强LiDAR特征。然后,我们使用体渲染将融合的特征投影回图像平面,以重建颜色和深度图。这些图像由相机输入图像和从LiDAR导出的深度估计分别进行监督。在流行的nuScenes和SemanticKITTI基准测试上进行的大量实验验证了我们的Co-Occ在3D语义占据预测方面的有效性。该项目页面可在https://rorisis.github.io/Co-Occ_project-page/上找到。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本论文旨在解决多模态语义占用预测中存在的模态异质性、模态不对齐和模态交互不足等问题,提出一种新的LiDAR-相机三维语义占用预测框架。
  • 关键思路
    关键思路:本文提出了一种名为Co-Occ的新型多模态三维语义占用预测框架,采用显式的LiDAR-相机特征融合和隐式体积渲染正则化相结合的方法。具体而言,通过Geometric- and Semantic-aware Fusion (GSFusion)模块显式地增强LiDAR特征,然后使用体积渲染将融合的特征投影回图像平面,以重建颜色和深度图。最后,使用相机输入图像和来自LiDAR的深度估计进行监督。
  • 其它亮点
    亮点:本文的亮点有:1)提出了一种新的LiDAR-相机三维语义占用预测框架;2)采用GSFusion模块显式增强LiDAR特征;3)使用体积渲染将融合的特征投影回图像平面,以重建颜色和深度图;4)在nuScenes和SemanticKITTI数据集上进行了广泛的实验,证明了Co-Occ的有效性;5)开放了项目页面,提供了开源代码。
  • 相关研究
    相关研究:最近在这个领域中,还有一些相关的研究,例如:“Multi-Modal Multi-Task Learning for Autonomous Driving”和“Multimodal Sensor Fusion for 3D Object Detection and Semantic Segmentation in Autonomous Driving: A Survey”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问