ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling

2024年06月06日
  • 简介
    高质量的人工标注数据对于现代深度学习流程至关重要,但是人工标注过程既昂贵又耗时。在给定有限的人工标注预算的情况下,选择一个信息量丰富且代表性强的数据子集进行标注可以显著减少人工标注的工作量。表现良好的最新最先进的(SOTA)coreset选择方法需要整个数据集的地面真实标签,无法减轻人工标注负担。同时,SOTA无标签coreset选择方法由于几何基础分数差而表现不佳。在本文中,我们介绍了一种新型的无标签coreset选择方法ELFS。ELFS使用深度聚类来估计数据难度分数,而无需地面真实标签。此外,ELFS使用简单但有效的双端修剪方法来减轻计算分数的偏差,进一步提高了所选coreset的性能。我们在五个视觉基准上评估了ELFS,并展示了ELFS始终优于SOTA无标签基线。例如,在90%修剪率下,ELFS在CIFAR10上超过最佳基线5.3%,在CIFAR100上超过7.1%。此外,ELFS在低修剪率(例如30%和50%)下甚至实现了与监督coreset选择相当的性能,例如在CIFAR10和ImageNet-1K上。
  • 作者讲解
  • 图表
  • 解决问题
    如何在有限的人工标注预算下,选择最具信息量和代表性的数据子集进行标注,从而减少人工标注的工作量?
  • 关键思路
    本论文提出了一种新的无标签核心集选择方法(ELFS),使用深度聚类来估计数据难度分数,避免了需要整个数据集的标签的限制,同时使用双端修剪方法来减轻计算分数时的偏差,进一步提高了选择核心集的性能。
  • 其它亮点
    论文在五个视觉基准数据集上评估了ELFS,结果表明,在90%的修剪率下,ELFS在CIFAR10和CIFAR100上分别比最佳基线高出5.3%和7.1%。此外,ELFS在低修剪率(例如30%和50%)下甚至达到了有监督核心集选择的相当性能水平。
  • 相关研究
    相关研究包括有监督的核心集选择方法和其他无标签核心集选择方法。其中有监督的方法需要整个数据集的标签,而其他无标签方法的几何分数表现较差。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问