MonoOcc: Digging into Monocular Semantic Occupancy Prediction

简介

单目语义占据预测旨在仅从2D图像中推断场景的完整3D几何和语义信息。它引起了广泛关注，特别是由于其增强自主车辆的3D感知的潜力。然而，现有方法依赖于一个复杂的级联框架，具有相对有限的信息来恢复3D场景，包括仅依赖于整个网络输出的监督，单帧输入和使用小型骨干。这些挑战反过来阻碍了框架的优化，并产生了较差的预测结果，特别是涉及较小和长尾对象的情况。为了解决这些问题，我们提出了MonoOcc。具体来说，我们（i）通过提出辅助语义损失作为框架的浅层监督和使用图像条件交叉注意力模块来使用视觉线索优化体素特征，改进了单目占据预测框架，以及（ii）采用蒸馏模块，将来自更大的图像骨干的时间信息和更丰富的知识传输到单目语义占据预测框架中，硬件成本低。凭借这些优势，我们的方法在基于相机的SemanticKITTI场景完成基准测试中取得了最先进的性能。代码和模型可在https://github.com/ucaszyp/MonoOcc中访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何从单张2D图像中推断出完整的3D场景几何和语义信息，特别是在自动驾驶领域中的应用。
关键思路

提出了MonoOcc方法，通过引入辅助语义损失和图像条件交叉注意力模块来改进单目占用预测框架，并采用蒸馏模块将更丰富的知识从大型图像骨干传输到单目语义占用预测框架。
其它亮点

实验表明，MonoOcc方法在基于相机的SemanticKITTI场景完成基准上取得了最先进的性能，代码和模型已经开源。
相关研究

在最近的相关研究中，还有一些相关的论文，如《Monocular 3D Object Detection with Feature Enhancement》、《Single-View Stereo Matching with Symmetric Prior and Adaptive Confidence》等。

MonoOcc: Digging into Monocular Semantic Occupancy Prediction

提问交流

提问交流