- 简介本文介绍了FineWeb,这是一个由96个Common Crawl快照派生出的15万亿令牌数据集,可产生比其他开放预训练数据集更好的LLM性能。然而,像Llama 3和Mixtral这样的最先进的开放LLM的预训练数据集并不公开,对它们的创建方式了解甚少。为了推进如何策划高质量预训练数据集的理解,本文仔细记录和削减了FineWeb中使用的所有设计选择,包括深入研究去重和过滤策略。此外,本文还介绍了FineWeb-Edu,这是从FineWeb中过滤出的13万亿令牌的教育文本集合。在FineWeb-Edu上预训练的LLM在知识和推理密集的基准测试中表现出显著的性能提高,如MMLU和ARC。除了我们的数据集,我们还公开发布了我们的数据策划代码库和在我们的削减实验中训练的所有模型。
- 图表
- 解决问题本文旨在介绍FineWeb数据集,该数据集是从96个Common Crawl快照中衍生出的,总共包含15万亿个标记,可用于预训练大型语言模型(LLM)并提高其性能。同时,作者还介绍了FineWeb-Edu数据集,该数据集包含13万亿个标记的教育文本,用于提高LLM在知识和推理密集型基准测试中的性能。
- 关键思路本文的关键思路是介绍FineWeb数据集和FineWeb-Edu数据集,以及它们的数据处理方法和预训练LLM的性能表现。作者的方法在数据处理和筛选方面进行了深入的研究,并提供了完整的代码和实验结果。
- 其它亮点本文的亮点包括FineWeb数据集和FineWeb-Edu数据集的介绍,以及它们在预训练LLM中的性能表现。作者详细记录了数据处理和筛选的所有设计选择,并进行了深入的分析。此外,作者公开了他们的代码和实验结果,为该领域的研究提供了有用的资源。
- 在最近的相关研究中,也有一些关于预训练LLM的数据集和方法的研究。例如,GPT-3和Turing-NLG使用自己的私有数据集进行预训练。另外,一些研究还探索了如何使用领域特定的数据集来提高LLM的性能,例如BioBERT和SciBERT。
沙发等你来抢
去评论
评论
沙发等你来抢