Data curation via joint example selection further accelerates multimodal learning

简介

数据筛选是大规模预训练的重要组成部分。在这项工作中，我们证明共同选择数据批次比独立选择数据样本更有效。多模态对比目标暴露了数据之间的依赖关系，因此自然地产生了衡量批次联合可学性的标准。我们推导出一个简单而易于处理的算法来选择这样的数据批次，这显著加速了训练，超越了单独优先考虑数据点的方法。随着从更大的超级批次中选择，性能得到改善，我们还利用了模型逼近的最新进展，以减少相关的计算开销。因此，我们的方法——多模态对比学习与联合样本选择（JEST）——在最多少13倍的迭代和10倍的计算量下超越了最先进的模型。JEST的性能关键在于通过预训练参考模型将数据选择过程引导到更小、更好筛选的数据集分布，从而将数据筛选水平暴露为神经缩放定律的新维度。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文旨在解决大规模预训练中数据筛选的问题，提出了一种联合选择数据批次的方法。
关键思路

采用多模态对比目标来选择联合数据批次，可以更有效地进行学习。同时，利用预训练参考模型来指导数据选择，可以将数据选择过程引导到小型精选数据集的分布中。
其它亮点

论文提出的方法名为JEST，可以比现有模型更快地进行训练，使用的迭代次数和计算量都比现有模型少。实验结果表明，JEST可以在多个数据集上获得更好的性能。
相关研究

相关研究包括：《Representation Learning with Contrastive Predictive Coding》、《Large Scale Learning with Mixed Supervision》、《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》等。

Data curation via joint example selection further accelerates multimodal learning

提问交流

提问交流