DataComp-LM: In search of the next generation of training sets for language models

2024年06月17日
  • 简介
    我们介绍了DataComp for Language Models (DCLM),这是一个用于改善语言模型的受控数据集实验的测试平台。作为DCLM的一部分,我们提供了一个标准化的语料库,提取自Common Crawl的240T个标记,基于OpenLM框架的有效预训练配方以及广泛的53个下游评估。参与DCLM基准测试的参与者可以在模型规模从412M到7B参数的范围内尝试数据策略,如去重、过滤和数据混合。作为DCLM的基线,我们进行了大量实验,并发现基于模型的过滤是组装高质量训练集的关键。由此产生的数据集DCLM-Baseline可以训练一个7B参数的语言模型,从头开始在MMLU上达到64%的5-shot准确率,训练标记为2.6T。与先前的开放数据语言模型MAP-Neo相比,DCLM-Baseline在MMLU上的表现提高了6.6个百分点,同时计算量减少了40%。我们的基线模型在MMLU上与Mistral-7B-v0.3和Llama 3 8B相当,并在53个自然语言理解任务的平均表现上与Llama 3 8B相比,计算量减少了6.6倍。我们的结果突出了数据集设计对于训练语言模型的重要性,并为进一步研究数据策划提供了一个起点。
  • 图表
  • 解决问题
    研究如何通过数据集的设计来提高语言模型的性能,提供了一个标准化的语料库和数据处理方法,并进行了广泛的实验。
  • 关键思路
    通过模型过滤的方式来组装高质量的训练集是提高语言模型性能的关键。
  • 其它亮点
    提供了一个标准化的语料库和数据处理方法,实验涵盖了53个下游任务,实验结果表明该方法在多个任务上的表现优于之前的最新研究成果。
  • 相关研究
    该领域的相关研究包括MAP-Neo、Mistral-7B-v0.3和Llama 3 8B等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论