Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification

2024年04月27日
  • 简介
    CLIP展示了出色的跨模态匹配能力,这是由于它在图像-文本对比学习任务上的训练。然而,没有针对单模态场景进行特定优化,其单模态特征提取的性能可能不够优秀。尽管如此,一些研究直接使用CLIP的图像编码器进行少样本分类等任务,引入了其预训练目标和特征提取方法之间的不匹配。这种不一致会降低图像特征表示的质量,从而对CLIP在目标任务中的有效性产生不利影响。在本文中,我们将文本特征视为CLIP空间中图像特征的精确邻居,并基于图像及其邻居文本之间的距离结构提出了一种新颖的跨模态邻居表示(CODER)。该特征提取方法更好地与CLIP的预训练目标对齐,从而充分利用了CLIP强大的跨模态能力。构建高质量的CODER的关键在于如何创建大量高质量和多样化的文本以与图像匹配。我们引入了Auto Text Generator(ATG)以数据无关和无需训练的方式自动生成所需的文本。我们将CODER应用于CLIP的零样本和少样本图像分类任务中。在各种数据集和模型上的实验结果证实了CODER的有效性。代码可在https://github.com/YCaigogogo/CVPR24-CODER上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决CLIP模型在单模态特征提取方面表现不佳的问题,通过构建CrOss-moDal nEighbor Representation(CODER)来更好地对齐CLIP的预训练目标和特征提取方法,从而充分发挥其跨模态匹配的能力。
  • 关键思路
    本文提出了一种基于图像和其邻居文本距离结构的CODER特征提取方法,并引入自动文本生成器ATG,可以在无需数据和训练的情况下自动生成大量高质量且多样化的文本,从而更好地匹配图像特征。这种方法在CLIP的零样本和少样本图像分类任务中表现出良好的效果。
  • 其它亮点
    本文的亮点在于提出了一种新的特征提取方法,充分发挥了CLIP模型的跨模态匹配能力;引入了自动文本生成器ATG,可以自动生成大量高质量的文本;在多个数据集和模型上进行了实验,证明了CODER的有效性。代码已开源。
  • 相关研究
    近期的相关研究包括:1.《CLIP: Learning Transferable Visual Models From Natural Language Supervision》;2.《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》;3.《Deep InfoMax》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问