- 简介我们介绍了一个名为“DataComp for Language Models(DCLM)”的测试平台,旨在通过受控的数据集实验来改进语言模型。作为DCLM的一部分,我们提供了一个标准化的语料库,其中包含从Common Crawl中提取的240T个标记,基于OpenLM框架的有效预训练配方以及广泛的53个下游评估。参与DCLM基准测试的参与者可以在模型规模从412M到7B参数的范围内尝试数据策略,例如去重、过滤和数据混合。作为DCLM的基准,我们进行了广泛的实验,并发现基于模型的过滤对于组装高质量的训练集至关重要。由此产生的数据集“DCLM-Baseline”使得可以使用2.6T的训练标记从头开始训练一个7B参数的语言模型,在MMLU上实现了64%的5-shot准确率。与先前的开放数据语言模型“MAP-Neo”相比,DCLM-Baseline在MMLU上的准确率提高了6.6个百分点,同时使用的计算资源少了40%。我们的基准模型在MMLU上也与“Mistral-7B-v0.3”和“Llama 3 8B”相当(分别为63%和66%),并在53个自然语言理解任务的平均表现上与“Llama 3 8B”相当,同时使用的计算资源只有后者的6.6倍。我们的研究结果突出了数据集设计对于训练语言模型的重要性,并为进一步研究数据策略提供了一个起点。
- 图表
- 解决问题本文旨在通过数据集实验,提高语言模型的性能。作者提供了一个标准化的语料库,有效的预训练配方和广泛的下游评估,以控制数据集的实验为基础,为模型规模在412M到7B参数之间的数据策略提供了实验平台。
- 关键思路本文的关键思路是通过模型过滤来组装高质量的训练集。作者进行了大量实验,发现模型过滤对于组装高质量的训练集至关重要。作者提供的数据策略可以有效地提高语言模型的性能。
- 其它亮点本文提供了一个标准化的语料库,有效的预训练配方和广泛的下游评估。作者进行了大量实验,发现模型过滤对于组装高质量的训练集至关重要。作者提供的数据策略可以有效地提高语言模型的性能。作者的基准模型在MMLU上的5-shot准确率为64%,相比之前的最优MAP-Neo,提高了6.6个百分点,训练计算量减少了40%。作者的基准模型在53个自然语言理解任务中表现良好,训练计算量比Llama 3 8B少6.6倍。
- 在这个领域中,最近的相关研究包括MAP-Neo、Mistral-7B-v0.3和Llama 3 8B等。
沙发等你来抢
去评论
评论
沙发等你来抢