Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

2024年03月25日
  • 简介
    我们发现,大型语言模型的预训练数据由多个领域(例如网络文本、学术论文、代码)组成,它们的混合比例对于模型的性能至关重要。虽然现有的方法依赖于启发式或定性策略来调整比例,但我们发现了模型性能与混合比例之间的定量可预测性,即我们所称的数据混合定律。在样本混合上拟合这种函数可以揭示出模型在实际运行之前对未见过混合的模型性能,从而指导选择理想的数据混合。此外,我们提出了训练步骤、模型大小和数据混合定律的缩放定律的嵌套使用,以便在只进行小规模训练的情况下预测大规模数据下训练的大型模型在各种混合情况下的性能。此外,实验结果验证了我们的方法有效地优化了在 RedPajama 上训练 100B 个标记的 1B 模型的训练混合,达到了与默认混合下训练 48% 更多步骤的性能相当。将数据混合定律的应用扩展到连续训练可以准确地预测避免灾难性遗忘的关键混合比例,并展望了动态数据计划的潜力。
  • 作者讲解·1
  • 图表
  • 解决问题
    本篇论文旨在解决大型语言模型预训练数据混合比例对模型性能的影响问题,并提出了一种基于数据混合定律的方法来预测模型在不同混合比例下的性能表现。
  • 关键思路
    论文提出了一种数据混合定律的函数形式,可以通过对样本混合比例的拟合来预测模型在未知混合比例下的性能表现,从而指导数据混合比例的选择。同时,还提出了使用训练步骤、模型大小和数据混合定律的缩放定律来预测在不同混合比例下的大型模型性能。
  • 其它亮点
    论文的实验结果表明,该方法可以有效优化在RedPajama上训练100B标记的1B模型的训练混合比例,并达到与默认混合比例训练48%更多步骤的模型性能相当。此外,该方法还可以应用于连续训练,准确预测避免灾难性遗忘的关键混合比例,并展望了动态数据调度的潜力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Language Models are Few-Shot Learners》、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问