An Empirical Study into Clustering of Unseen Datasets with Self-Supervised Encoders

2024年06月04日
  • 简介
    我们能否在不重新训练的情况下,将预训练模型应用于新的数据集并且泛化效果良好呢?我们在预训练图像模型上部署了它们未经训练的数据集,并且研究它们的嵌入是否形成有意义的聚类。我们的一系列基准实验使用仅在ImageNet-1k上进行了监督或自监督训练技术的编码器,部署在在训练期间未见过的图像数据集上,并使用传统聚类算法进行聚类。此评估提供了有关自监督模型嵌入的新见解,这些模型优先考虑不同的特征而非监督模型。在训练领域内,监督编码器通常比自监督编码器提供更多的效用,而在其远离训练领域时则相反,然而,微调编码器展示了相反的趋势。聚类提供了一种评估自监督学习表示效用的方法,这与现有方法(例如kNN)正交。此外,我们发现在UMAP降维空间中测量的轮廓分数与聚类性能高度相关,因此可以用作没有基本真值标签数据的聚类性能的代理。我们的代码实现可在\url{https://github.com/scottclowe/zs-ssl-clustering/}上找到。
  • 图表
  • 解决问题
    本论文旨在探究预训练模型在新数据集上是否能够推广而无需重新训练,以及它们的嵌入是否形成有意义的聚类。同时,比较自监督学习和有监督学习的预训练模型在不同领域中的效用。
  • 关键思路
    论文采用预训练模型在未见过的图像数据集上进行聚类,通过比较有监督和自监督学习的预训练模型的表现,探究它们的嵌入是否能够推广到新数据集上,以及它们的聚类效果如何。
  • 其它亮点
    论文的实验结果显示,在新数据集上,预训练模型的嵌入可以形成有意义的聚类,且自监督学习和有监督学习的预训练模型在不同领域中的效用存在差异。同时,论文提出了使用UMAP降维后的轮廓系数作为评估聚类效果的指标,并且提供了开源代码。
  • 相关研究
    近期在该领域的相关研究包括:《Unsupervised Data Augmentation for Consistency Training》、《Contrastive Multiview Coding》、《Momentum Contrast for Unsupervised Visual Representation Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论