Effective pruning of web-scale datasets based on complexity of concept clusters

简介

利用大规模网络数据集进行机器学习模型的训练取得了前所未有的性能提升，但同时也对训练的计算要求提出了极高的要求。为了提高训练和数据效率，我们在对大规模多模态数据集进行修剪以训练 CLIP 风格模型方面推动了极限。目前在 ImageNet 上最有效的修剪方法是根据嵌入将数据样本聚类到不同的概念中，并删除最典型的样本。我们将这种方法扩展到 LAION 数据集上，并通过注意到修剪速率应该是概念特定的并适应概念的复杂性来改进它。通过使用一个简单而直观的复杂度度量，我们能够将训练成本降低到正常训练的四分之一。通过从 LAION 数据集中筛选，我们发现在较小的一组高质量数据上进行训练可以在显著降低训练成本的同时实现更高的性能。更具体地说，我们仅使用 27.7% 的数据和训练计算就能够在 ImageNet 零样本准确性上比 LAION 训练的 OpenCLIP-ViT-B32 模型提高 1.1 个百分点。尽管训练成本大大降低，我们在 ImageNet dist. shifts、检索任务和 VTAB 上也看到了改进。在 DataComp Medium 基准测试中，我们实现了新的 ImageNet 零样本准确性最高记录，并在 38 个评估任务中实现了有竞争力的平均零样本准确性。
图表
解决问题

本论文旨在通过修剪大规模多模态数据集来提高训练和数据效率，以改进训练CLIP风格模型的性能。
关键思路

本论文提出了一种基于概念特定剪枝率的修剪方法，通过简单直观的复杂度度量，将训练成本降低到正常训练的四分之一。
其它亮点

论文在LAION数据集上进行了实验，并发现在更小的高质量数据集上训练可以在显著降低训练成本的同时实现更高的性能。实验结果显示，该方法在ImageNet dist. shifts、retrieval tasks和VTAB上均有所提高，并在DataComp Medium基准测试中实现了新的ImageNet零样本精度的最新水平和38个评估任务的平均零样本精度。
相关研究

最近的相关研究包括：《Learning Transferable Visual Models From Natural Language Supervision》、《Scaling Laws for Neural Language Models》等。

Effective pruning of web-scale datasets based on complexity of concept clusters

评论