Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction

向作者提问

NEW

简介

3D语义占据预测是自动驾驶领域中的关键任务。近期的方法在单一模态下取得了3D语义占据预测方面的巨大进展。然而，多模态语义占据预测方法在处理不同模态数据融合时，遇到了模态异质性、模态错位和模态交互不足等困难，这可能导致重要的几何和语义信息的丢失。本文提出了一种新颖的多模态（即LiDAR-相机）3D语义占据预测框架，称为Co-Occ，它将显式的LiDAR-相机特征融合与隐式的体渲染正则化相结合。关键的洞见是特征空间中的体渲染可以有效地弥合3D LiDAR扫描和2D图像之间的差距，同时作为物理正则化来增强LiDAR-相机融合的体积表示。具体而言，我们首先提出了一个几何和语义感知融合（GSFusion）模块，通过K最近邻（KNN）搜索将相邻的相机特征纳入LiDAR特征中，以显式地增强LiDAR特征。然后，我们使用体渲染将融合的特征投影回图像平面，以重建颜色和深度图。这些图像由相机输入图像和从LiDAR导出的深度估计分别进行监督。在流行的nuScenes和SemanticKITTI基准测试上进行的大量实验验证了我们的Co-Occ在3D语义占据预测方面的有效性。该项目页面可在https://rorisis.github.io/Co-Occ_project-page/上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本论文旨在解决多模态语义占用预测中存在的模态异质性、模态不对齐和模态交互不足等问题，提出一种新的LiDAR-相机三维语义占用预测框架。
关键思路

关键思路：本文提出了一种名为Co-Occ的新型多模态三维语义占用预测框架，采用显式的LiDAR-相机特征融合和隐式体积渲染正则化相结合的方法。具体而言，通过Geometric- and Semantic-aware Fusion (GSFusion)模块显式地增强LiDAR特征，然后使用体积渲染将融合的特征投影回图像平面，以重建颜色和深度图。最后，使用相机输入图像和来自LiDAR的深度估计进行监督。
其它亮点

亮点：本文的亮点有：1）提出了一种新的LiDAR-相机三维语义占用预测框架；2）采用GSFusion模块显式增强LiDAR特征；3）使用体积渲染将融合的特征投影回图像平面，以重建颜色和深度图；4）在nuScenes和SemanticKITTI数据集上进行了广泛的实验，证明了Co-Occ的有效性；5）开放了项目页面，提供了开源代码。
相关研究

相关研究：最近在这个领域中，还有一些相关的研究，例如：“Multi-Modal Multi-Task Learning for Autonomous Driving”和“Multimodal Sensor Fusion for 3D Object Detection and Semantic Segmentation in Autonomous Driving: A Survey”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问