- 简介对比性语言-图像预训练(CLIP)的成功依赖于图像和标题之间的配对监督,但网络爬取的数据中会存在噪声。我们提出了数据专家混合模型(MoDE),通过聚类学习了一个CLIP数据专家系统。每个数据专家都在一个数据簇上进行训练,对其他簇中的假阴性噪声不太敏感。在推理时,我们通过应用由任务元数据和簇条件之间的相关性确定的权重来集成它们的输出。为了准确估计相关性,一个簇中的样本应该在语义上相似,但数据专家的数量仍应该是合理的,以便进行训练和推理。因此,我们考虑了人类语言中的本体论,并建议使用细粒度的簇中心来表示每个数据专家的粗粒度级别。实验研究表明,在ViT-B/16上,四个CLIP数据专家在零样本图像分类上优于OpenAI CLIP和OpenCLIP的ViT-L/14,但训练成本较少(<35\%)。同时,MoDE可以异步地训练所有数据专家,并且可以灵活地包含新的数据专家。代码可在https://github.com/facebookresearch/MetaCLIP/tree/main/mode上获得。
- 图表
- 解决问题本论文旨在解决Contrastive Language-Image Pretraining (CLIP)中由于图像和标题匹配的嘈杂性而导致的性能下降的问题。
- 关键思路通过使用MoDE(Mixture of Data Experts)算法,将CLIP数据专家聚类并分别训练,以减少数据噪声的影响。在推理时,通过元数据和聚类条件之间的相关性确定权重来集成数据专家的输出。
- 其它亮点本文提出了一种使用人类语言本体论的方法,通过使用细粒度聚类中心来表示每个数据专家的粗粒度级别。实验结果表明,MoDE算法在零样本图像分类方面的性能优于OpenAI CLIP和OpenCLIP,并且训练成本低于ViT-L/14。此外,MoDE算法可以异步训练所有数据专家,并且可以灵活地包括新的数据专家。
- 在最近的相关研究中,也有一些关于使用聚类的方法来提高图像分类性能的研究,例如《Clustered Contrastive Representation Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢