- 简介我们提出了一种利用在线数据选择策略加速大规模预训练的方法。我们首次证明了基于模型的数据选择可以减少达到与均匀采样训练的模型相同性能所需的总计算量。这种“计算积极”策略的关键洞察力在于小模型可以很好地代表更大模型的损失,因此在评分数据时花费的计算量可以大幅缩减,但仍然可以显著加速学习者的训练。这些数据选择策略也可以在不同数据集和任务之间强烈推广,为通过重复使用现成模型和训练序列来进一步分摊数据评分开销开辟了道路。我们的方法ClassAct和ActiveCLIP在JFT上训练视觉分类器时需要46%和51%较少的训练更新,并且在ALIGN上训练多模态模型时需要少达25%的总计算量。最后,我们的范式无缝地应用于大规模图像-文本数据的策划,为多模态转移任务和预训练体制中的新的最先进成果提供了基础。
- 图表
- 解决问题论文旨在通过在线数据选择策略加速大规模预训练,以减少训练时间和计算资源的消耗。同时,论文还试图证明基于模型的数据选择可以降低达到与均匀采样训练模型相同性能所需的总计算量。
- 关键思路论文提出的ClassAct和ActiveCLIP方法可以利用小模型作为大模型损失的良好代理,从而极大地减少评分数据的计算量,但仍然显着加速学习器的训练。这些数据选择策略还可以强烈地推广到各种数据集和任务中,为进一步摊销数据评分的开销提供了途径。
- 其它亮点论文的实验结果表明,ClassAct和ActiveCLIP方法在JFT和ALIGN数据集上分别可以减少46%和51%的训练更新次数,以及高达25%的总计算量。此外,这些方法还可无缝应用于大规模图像-文本数据集的筛选,为多模态迁移任务和预训练方案提供了新的最优结果。
- 在这个领域中,最近的相关研究包括《Learning to Learn from Data: A Comparison of Techniques for Meta-Learning》和《Data-Efficient Image Recognition with Contrastive Predictive Coding》等。
沙发等你来抢
去评论
评论
沙发等你来抢