Multi-label Cluster Discrimination for Visual Representation Learning

2024年07月24日
  • 简介
    最近,由于图像文本对比学习提供的优越特征表示,对比语言图像预训练(CLIP)已经在各种任务中展示出成功。然而,CLIP使用的实例区分方法几乎无法编码训练数据的语义结构。为了解决这个限制,通过迭代聚类分配和分类提出了聚类区分。然而,大多数聚类区分方法只为每个图像定义一个伪标签,忽略了图像中的多标签信号。在本文中,我们提出了一种新的多标签聚类区分方法MLCD来增强表示学习。在聚类步骤中,我们首先基于现成的嵌入特征将大规模LAION-400M数据集聚类为一百万个中心。考虑到自然图像经常包含多个视觉对象或属性,我们选择多个最接近的中心作为辅助类标签。在区分步骤中,我们设计了一种新的多标签分类损失,优雅地将正类和负类的损失分开,并减轻了决策边界上的模糊性。我们通过在不同规模的模型和预训练数据集上进行实验来验证所提出的多标签聚类区分方法。实验结果表明,我们的方法在多个下游任务中实现了最先进的性能,包括线性探针、零样本分类和图像-文本检索。
  • 图表
  • 解决问题
    本论文旨在解决现有的Contrastive Language Image Pre-training (CLIP)方法中,实例判别方法难以编码训练数据的语义结构的问题,提出了一种新的多标签聚类判别方法(MLCD)来增强表示学习。
  • 关键思路
    论文提出了一种新的多标签聚类判别方法(MLCD),在聚类步骤中,利用离线嵌入特征将大规模数据集进行聚类,将多个最接近的中心作为辅助类标签,以处理自然图像中常含有多个视觉对象或属性的情况;在判别步骤中,设计了一种新的多标签分类损失,从正类和负类分离损失,缓解了决策边界的歧义。
  • 其它亮点
    论文在不同规模的模型和预训练数据集上进行了实验验证,结果表明,MLCD方法在多个下游任务中实现了最先进的性能,包括线性探针、零样本分类和图像文本检索。此外,论文还开源了代码和数据集。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》、《Big Self-Supervised Models are Strong Semi-Supervised Learners》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论