- 简介学习从大规模多视角视频数据中获取鲁棒且可扩展的视觉表示仍然是计算机视觉和自动驾驶领域的挑战。现有的预训练方法要么依赖于带有3D注释的昂贵监督学习,从而限制了可扩展性,要么专注于单帧或单目输入,忽略了时间信息。我们提出了MIM4D,一种基于双重掩模图像建模(MIM)的新型预训练范式。MIM4D通过训练掩蔽的多视角视频输入来利用空间和时间关系。它使用连续场景流构建伪3D特征,并将它们投影到2D平面进行监督。为了解决缺乏密集的3D监督的问题,MIM4D通过采用3D体积可微渲染来重建像素以学习几何表示。我们证明,MIM4D在自动驾驶的nuScenes数据集上实现了最先进的性能。它显著改善了多个下游任务的现有方法,包括BEV分割(8.7%IoU),3D物体检测(3.5%mAP)和HD地图构建(1.4%mAP)。我们的工作为在自动驾驶中学习规模表示提供了新的选择。代码和模型已在https://github.com/hustvl/MIM4D发布。
-
- 图表
- 解决问题论文试图通过MIM4D解决从大规模多视角视频数据中学习稳健和可扩展的视觉表示的问题,以应用于计算机视觉和自动驾驶领域。现有的预训练方法要么依赖于昂贵的带有3D注释的监督学习,限制了可扩展性,要么专注于单帧或单目输入,忽略了时间信息。
- 关键思路MIM4D是一种新的预训练范式,基于双重掩蔽图像建模(MIM)。MIM4D利用掩蔽的多视角视频输入进行训练,同时利用连续场景流构建伪3D特征,并将其投影到2D平面进行监督。为了解决缺乏密集3D监督的问题,MIM4D使用3D容积可微渲染来重建像素以学习几何表示。
- 其它亮点论文证明了MIM4D在自动驾驶的视觉表示学习方面取得了最先进的性能。它在多个下游任务中显著提高了现有方法的表现,包括BEV分割(8.7%IoU),3D物体检测(3.5%mAP)和HD地图构建(1.4%mAP)。论文还开放了代码和模型。
- 在这个领域中,最近的相关研究包括:'Self-Supervised Learning for Single View 3D Reconstruction','Unsupervised Learning of Depth and Ego-Motion from Video','Learning Representations by Maximizing Mutual Information Across Views'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流