- 简介数据筛选是大规模预训练的重要组成部分。在这项工作中,我们证明共同选择数据批次比独立选择数据样本更有效。多模态对比目标暴露了数据之间的依赖关系,因此自然地产生了衡量批次联合可学性的标准。我们推导出一个简单而易于处理的算法来选择这样的数据批次,这显著加速了训练,超越了单独优先考虑数据点的方法。随着从更大的超级批次中选择,性能得到改善,我们还利用了模型逼近的最新进展,以减少相关的计算开销。因此,我们的方法——多模态对比学习与联合样本选择(JEST)——在最多少13倍的迭代和10倍的计算量下超越了最先进的模型。JEST的性能关键在于通过预训练参考模型将数据选择过程引导到更小、更好筛选的数据集分布,从而将数据筛选水平暴露为神经缩放定律的新维度。
-
- 图表
- 解决问题论文旨在解决大规模预训练中数据筛选的问题,提出了一种联合选择数据批次的方法。
- 关键思路采用多模态对比目标来选择联合数据批次,可以更有效地进行学习。同时,利用预训练参考模型来指导数据选择,可以将数据选择过程引导到小型精选数据集的分布中。
- 其它亮点论文提出的方法名为JEST,可以比现有模型更快地进行训练,使用的迭代次数和计算量都比现有模型少。实验结果表明,JEST可以在多个数据集上获得更好的性能。
- 相关研究包括:《Representation Learning with Contrastive Predictive Coding》、《Large Scale Learning with Mixed Supervision》、《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流