- 简介我们介绍了Duoduo CLIP,这是一个用于三维表示学习的模型,它从多视角图像中学习形状编码,而不是从点云中学习。选择多视角图像使我们能够利用现成的CLIP模型中的二维先验知识,从而便于用三维数据进行微调。我们的方法不仅显示出比现有点云方法更好的泛化性能,而且减少了GPU需求和训练时间。此外,我们使用跨视图注意力修改了模型,以利用物体多个帧之间的信息,进一步提高了性能。与当前需要480个A100小时来训练10亿个模型参数的最先进的点云方法相比,我们只需要57个A5000小时和8700万个参数。与点云相比,多视角图像在使用案例中提供了更多的灵活性。这包括能够使用不同数量的图像对对象进行编码,使用更多视角时性能更好。这与基于点云的方法形成对比,后者需要整个对象的扫描或模型。我们展示了从真实世界对象的图像中检索对象的灵活性。我们的模型在更细粒度的文本到形状检索中也取得了更好的性能,展示了比基于点云的模型更好的文本和形状对齐。
- 图表
- 解决问题本论文旨在通过使用多视图图像而非点云来学习形状编码,以解决点云方法中存在的一些问题。该方法不仅可以提高泛化能力,还可以减少GPU需求和训练时间,并且提供更多的使用灵活性。
- 关键思路论文的关键思路是使用多视图图像来学习形状编码,并利用来自现有CLIP模型的2D先验知识来促进对3D数据的微调。该方法还使用跨视图注意力来提高性能。
- 其它亮点论文展示了该方法的灵活性,可以使用变量数量的图像对对象进行编码,并且随着使用视图数量的增加,性能更好。实验结果表明,该方法在对象检索和文本到形状检索方面的性能优于点云方法。论文使用的数据集和代码已经开源。
- 与该论文相关的研究包括使用点云方法进行形状编码的先前工作,以及使用多视图图像进行对象检索和形状编码的其他方法。
沙发等你来抢
去评论
评论
沙发等你来抢