- 简介我们提出了一种软去重方法,旨在解决大型语言模型(LLMs)的预训练数据集中重复数据导致的效果下降问题。当前的方法主要集中在检测和删除重复数据,这可能会导致有价值的信息丢失,并忽略了不同程度的重复。为了解决这个问题,我们提出了一种软去重方法,可以在保持数据集完整性的同时,有选择性地减少高共同性数据的采样权重。我们的方法的核心是“数据共同性”概念,我们引入一个度量重复程度的度量标准,通过使用n-gram模型测量样本出现概率。实证分析表明,该方法显著提高了训练效率,达到了可比的困惑度分数,并且所需的训练步骤至少减少了26%。此外,它在相同的训练时间内提高了平均few-shot下游准确度1.77%。重要的是,即使在严格去重的数据集上,这种方法也能够持续提高性能,表明它有潜力成为LLMs的标准预训练过程,并可以补充现有的方法。
-
- 图表
- 解决问题论文旨在解决大型语言模型(LLMs)中存在的数据重复问题,提出一种软去重方法来减少数据重复对训练效率的影响。
- 关键思路该方法通过引入“数据常见度”这一概念来量化数据重复的程度,并根据常见度选择性地减少数据的采样权重,从而在保持数据集完整性的同时提高训练效率。
- 其它亮点该方法在实验中取得了显著的效果,训练步骤减少了至少26%,且在相同训练时间内提高了平均few-shot下游准确率1.77%。此外,该方法在严格去重的数据集上仍然能够提高性能,具有很好的通用性。
- 近期相关研究包括:《Efficient Soft Data Augmentation for Large-Scale Text Classification》、《Learning to Learn from Noisy Labeled Data》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流