Probing the 3D Awareness of Visual Foundation Models

2024年04月12日
  • 简介
    近期大规模预训练的进展已经产生了具有强大能力的视觉基础模型。最近的模型不仅可以推广到其训练任务的任意图像,而且它们的中间表示对于其他视觉任务,如检测和分割,也是有用的。鉴于这样的模型可以在2D中对对象进行分类、描绘和定位,我们想知道它们是否也代表了它们的3D结构?在这项工作中,我们分析了视觉基础模型的3D意识。我们认为,3D意识意味着表示(1)编码场景的3D结构和(2)在不同视角下一致地表示表面。我们使用特定任务的探针和冻结特征的零-shot推理程序进行了一系列实验。我们的实验揭示了当前模型的一些限制。我们的代码和分析可以在https://github.com/mbanani/probe3d找到。
  • 图表
  • 解决问题
    分析了视觉基础模型的3D感知能力,即模型是否能够对场景的3D结构进行编码,并在不同视角下一致地表示表面。论文试图验证当前模型是否具备3D感知能力。
  • 关键思路
    通过任务特定的探针和零样本推理程序,在冻结特征上进行一系列实验。实验结果揭示了当前模型的几个局限性。
  • 其它亮点
    论文分析了目前视觉基础模型的3D感知能力,提出了一些新的任务特定探针和零样本推理程序,进行了一系列实验。论文代码和分析可以在https://github.com/mbanani/probe3d中找到。
  • 相关研究
    最近的相关研究包括使用3D卷积神经网络进行3D物体识别和分割等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论