Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

2024年05月24日
  • 简介
    自我监督特征是现代机器学习系统的基石。它们通常在数据集上进行预训练,这些数据集的构建和筛选通常需要大量人力。这个手动过程与监督学习中遇到的一些限制相似,例如,众包选择数据的成本高昂且耗时,从而阻止了数据集规模的扩展。在这项工作中,我们考虑了自动筛选高质量数据集以进行自我监督预训练的问题。我们认为这样的数据集应该是大型、多样化和平衡的,并提出了一种基于聚类的方法来构建满足所有这些条件的数据集。我们的方法涉及在一个大而多样的数据库上连续和分层地应用k-means,以获得均匀分布在数据概念之间的聚类,然后从这些聚类中进行分层平衡的采样步骤。在包括基于Web的图像、卫星图像和文本在内的三个不同数据领域进行的大量实验表明,我们自动筛选的数据集训练的特征优于在未筛选数据上训练的特征,同时与手动筛选数据训练的特征相当甚至更好。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决自监督预训练数据集构建的人工筛选过程耗时且不易扩展的问题,提出一种自动筛选高质量数据集的方法。
  • 关键思路
    论文的关键思路是采用基于聚类的方法,通过对大量、多样、均衡的数据库进行层级聚类和均衡采样,构建高质量的自监督预训练数据集。
  • 其它亮点
    论文使用三个不同领域的数据集进行了广泛的实验,证明了自动筛选的数据集相对于未筛选的数据集可以提升自监督预训练的性能,而且与人工筛选的数据集相当甚至更好。此外,论文提出的方法可以扩展到其他领域,具有一定的通用性。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Unsupervised Data Augmentation for Consistency Training》;2.《Self-Supervised Learning with Swin Transformers》;3.《Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问