SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

简介

我们提出了一种软去重方法，旨在解决大型语言模型（LLMs）的预训练数据集中重复数据导致的效果下降问题。当前的方法主要集中在检测和删除重复数据，这可能会导致有价值的信息丢失，并忽略了不同程度的重复。为了解决这个问题，我们提出了一种软去重方法，可以在保持数据集完整性的同时，有选择性地减少高共同性数据的采样权重。我们的方法的核心是“数据共同性”概念，我们引入一个度量重复程度的度量标准，通过使用n-gram模型测量样本出现概率。实证分析表明，该方法显著提高了训练效率，达到了可比的困惑度分数，并且所需的训练步骤至少减少了26％。此外，它在相同的训练时间内提高了平均few-shot下游准确度1.77％。重要的是，即使在严格去重的数据集上，这种方法也能够持续提高性能，表明它有潜力成为LLMs的标准预训练过程，并可以补充现有的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型（LLMs）中存在的数据重复问题，提出一种软去重方法来减少数据重复对训练效率的影响。
关键思路

该方法通过引入“数据常见度”这一概念来量化数据重复的程度，并根据常见度选择性地减少数据的采样权重，从而在保持数据集完整性的同时提高训练效率。
其它亮点

该方法在实验中取得了显著的效果，训练步骤减少了至少26%，且在相同训练时间内提高了平均few-shot下游准确率1.77%。此外，该方法在严格去重的数据集上仍然能够提高性能，具有很好的通用性。
相关研究

近期相关研究包括：《Efficient Soft Data Augmentation for Large-Scale Text Classification》、《Learning to Learn from Noisy Labeled Data》等。

SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

提问交流

提问交流