- 简介数据选择已经成为大规模视觉语言模型预训练(例如CLIP)的核心问题,尤其是在嘈杂的网络策划数据集中。主要有三种数据选择方法:(1)利用外部非CLIP模型来帮助数据选择,(2)训练新的CLIP风格嵌入模型,比原始的OpenAI CLIP模型更有效地选择高质量数据,(3)设计更好的度量标准或策略,普遍适用于任何CLIP嵌入,而不需要特定的模型属性(例如,CLIPScore是一种流行的度量标准)。虽然前两种方法已经得到广泛研究,但第三种方法仍未得到充分探索。本文提出了两种新方法,推进了第三种方法。首先,我们引入negCLIPLoss,一种受CLIP损失启发的方法,它将一个样本和其对比样本之间的对齐作为额外的归一化项,以更好地测量质量。其次,当下游任务已知时,我们提出了一种基于范数的度量标准NormSim,用于衡量预训练数据和目标数据之间的相似性。我们在数据选择基准测试DataComp上测试了我们的方法。与仅使用OpenAI的CLIP-L/14的最佳基线相比,我们的方法在ImageNet-1k上实现了5.3%的提升,在38个下游评估任务上实现了2.8%的提升。此外,negCLIPLoss和NormSim都与现有技术兼容。通过将我们的方法与当前最佳方法DFN和HYPE相结合,我们可以将下游任务的平均性能提高0.9%,实现新的最先进技术。
- 图表
- 解决问题本论文旨在解决大规模视觉语言模型预训练中数据选择的核心问题,提出两种新的方法来改进数据选择,包括negCLIPLoss和NormSim。
- 关键思路本论文的关键思路是提出两种新的方法来改进数据选择,其中negCLIPLoss是一种基于CLIP loss的方法,通过将一个样本与其对比对之间的对齐度作为额外的归一化项,以更好地衡量数据质量;而NormSim是一种基于范数的度量方法,用于衡量预训练数据与目标数据之间的相似性。
- 其它亮点本论文在DataComp数据选择基准测试中测试了两种新方法的效果,与仅使用OpenAI的CLIP-L/14的最佳基线相比,在ImageNet-1k和38个下游评估任务中分别提高了5.3%和2.8%。此外,本论文提出的两种方法都与现有技术兼容,并且可以与DFN和HYPE等最佳方法相结合,提高下游任务的平均性能。
- 在最近的相关研究中,还有一些与本论文相关的研究。例如,DFN和HYPE等方法也是数据选择的热门技术,而CLIPScore则是另一种流行的度量方法。
沙发等你来抢
去评论
评论
沙发等你来抢