Is CLIP the main roadblock for fine-grained open-world perception?

2024年04月04日
  • 简介
    现代应用程序越来越需要灵活的计算机视觉模型,以适应在训练期间未遇到的新概念。这在新兴领域中至关重要,如扩展现实、机器人和自动驾驶,这些领域需要能够对开放世界的刺激做出反应的能力。关键因素是能够根据推理时定义的自由形式文本查询来识别对象,这被称为开放词汇对象检测。像CLIP这样的多模态骨干是当前开放世界感知解决方案的主要支持技术。尽管在通用查询上表现良好,但最近的研究强调了开放词汇环境下细粒度识别能力的局限性,即区分诸如颜色、形状和材质等微妙的对象特征。在本文中,我们对这些开放词汇对象识别限制进行了详细的研究,以找到根本原因。我们评估了CLIP(最常用的视觉语言骨干)在细粒度对象匹配基准测试中的性能,揭示了开放词汇对象检测器和它们的骨干之间有趣的类比。实验表明,缺乏细粒度理解是由于CLIP潜在空间中对象特征的可分性较差。因此,我们尝试了解CLIP嵌入中是否存在细粒度知识,但由于余弦相似度匹配函数的不适用性(可能会丢弃重要的对象特征),在推理时没有被利用。我们的初步实验表明,简单的CLIP潜在空间重新投影有助于分离细粒度概念,为开发天生能够处理细粒度细节的骨干铺平了道路。可以在https://github.com/lorebianchi98/FG-CLIP上获取重现这些实验的代码。
  • 图表
  • 解决问题
    本文旨在解决开放词汇物体检测中细粒度识别能力不足的问题,即在识别物体的颜色、形状和材质等细节方面存在局限性。
  • 关键思路
    本文通过评估当前最常用的视觉-语言骨干网络CLIP在细粒度物体匹配基准测试中的表现,发现开放式词汇物体检测器的局限性与其骨干网络的局限性有相似之处。作者发现CLIP潜在空间中物体特征的可分性不佳,导致其细粒度识别能力不足,因此作者提出了简单的CLIP潜在空间再投影方法,以帮助分离细粒度概念。
  • 其它亮点
    本文实验设计详细,使用了细粒度物体匹配基准测试和公共数据集,作者提出的简单CLIP潜在空间再投影方法可以有效分离细粒度概念,为开发更好的骨干网络提供了思路。作者提供了代码开源,可供复现实验。
  • 相关研究
    近期相关研究主要集中在开放式词汇物体检测和视觉-语言骨干网络方面,例如ViLBERT和LXMERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论