SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

2024年07月09日
  • 简介
    我们提出了一种软去重方法,旨在解决大型语言模型(LLMs)的预训练数据集中重复数据导致的效果下降问题。当前的方法主要集中在检测和删除重复数据,这可能会导致有价值的信息丢失,并忽略了不同程度的重复。为了解决这个问题,我们提出了一种软去重方法,可以在保持数据集完整性的同时,有选择性地减少高共同性数据的采样权重。我们的方法的核心是“数据共同性”概念,我们引入一个度量重复程度的度量标准,通过使用n-gram模型测量样本出现概率。实证分析表明,该方法显著提高了训练效率,达到了可比的困惑度分数,并且所需的训练步骤至少减少了26%。此外,它在相同的训练时间内提高了平均few-shot下游准确度1.77%。重要的是,即使在严格去重的数据集上,这种方法也能够持续提高性能,表明它有潜力成为LLMs的标准预训练过程,并可以补充现有的方法。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大型语言模型(LLMs)中存在的数据重复问题,提出一种软去重方法来减少数据重复对训练效率的影响。
  • 关键思路
    该方法通过引入“数据常见度”这一概念来量化数据重复的程度,并根据常见度选择性地减少数据的采样权重,从而在保持数据集完整性的同时提高训练效率。
  • 其它亮点
    该方法在实验中取得了显著的效果,训练步骤减少了至少26%,且在相同训练时间内提高了平均few-shot下游准确率1.77%。此外,该方法在严格去重的数据集上仍然能够提高性能,具有很好的通用性。
  • 相关研究
    近期相关研究包括:《Efficient Soft Data Augmentation for Large-Scale Text Classification》、《Learning to Learn from Noisy Labeled Data》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问