Zyda: A 1.3T Dataset for Open Language Modeling

2024年06月04日
  • 简介
    最近几年,大型语言模型(LLMs)的规模已经大幅扩展,它们的计算和数据需求也相应增加。即使在相对较小的尺寸上,最先进的语言模型通常需要至少训练一万亿个标记。这种快速进展已经超越了可用于大规模LLM预训练的开源数据集的增长。在本文中,我们介绍了Zyda(Zyphra数据集),这是一个采用宽松许可证的数据集,包含了13万亿个标记,通过将几个主要的受人尊敬的开源数据集集成到一个高质量语料库中而组成。我们在数据集内部和跨数据集之间应用了严格的过滤和去重处理,以维护和增强从原始数据集中得出的质量。我们的评估结果表明,Zyda不仅与Dolma、FineWeb和RefinedWeb等其他开放数据集竞争激烈,而且还显著提高了来自Pythia套件的可比模型的性能。我们严格的数据处理方法显著增强了Zyda的效力,甚至在单独使用时也超过了其组成数据集中最好的数据集。
  • 图表
  • 解决问题
    论文旨在解决大规模语言模型预训练的数据集不足的问题,提出了一个新的数据集Zyda。
  • 关键思路
    Zyda数据集整合了多个开源数据集,经过严格的数据过滤和去重处理,提高了数据集的质量和效果。
  • 其它亮点
    Zyda数据集包含1.3万亿个标记,使用了开源的数据集,同时进行了严格的数据过滤和去重处理,实验结果表明Zyda比其他数据集表现更好,可以提高模型的性能。
  • 相关研究
    相关研究包括Dolma、FineWeb、RefinedWeb等数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论