- 简介近期大规模预训练的进展已经产生了具有强大能力的视觉基础模型。最近的模型不仅可以推广到其训练任务的任意图像,而且它们的中间表示对于其他视觉任务,如检测和分割,也是有用的。鉴于这样的模型可以在2D中对对象进行分类、描绘和定位,我们想知道它们是否也代表了它们的3D结构?在这项工作中,我们分析了视觉基础模型的3D意识。我们认为,3D意识意味着表示(1)编码场景的3D结构和(2)在不同视角下一致地表示表面。我们使用特定任务的探针和冻结特征的零-shot推理程序进行了一系列实验。我们的实验揭示了当前模型的一些限制。我们的代码和分析可以在https://github.com/mbanani/probe3d找到。
- 图表
- 解决问题分析了视觉基础模型的3D感知能力,即模型是否能够对场景的3D结构进行编码,并在不同视角下一致地表示表面。论文试图验证当前模型是否具备3D感知能力。
- 关键思路通过任务特定的探针和零样本推理程序,在冻结特征上进行一系列实验。实验结果揭示了当前模型的几个局限性。
- 其它亮点论文分析了目前视觉基础模型的3D感知能力,提出了一些新的任务特定探针和零样本推理程序,进行了一系列实验。论文代码和分析可以在https://github.com/mbanani/probe3d中找到。
- 最近的相关研究包括使用3D卷积神经网络进行3D物体识别和分割等。
沙发等你来抢
去评论
评论
沙发等你来抢