- 简介语言模型已成为解决各种自然语言处理任务的关键技术,但是关于最佳性能的语言模型是如何开发出来的很多细节并未报告。特别是,它们的预训练语料库的信息很少被讨论:商业语言模型很少提供有关其数据的任何信息;即使是开放模型也很少发布它们所训练的数据集或者精确的复制方法。因此,进行某些语言建模研究是具有挑战性的,例如了解训练数据如何影响模型能力并塑造其限制。为了促进关于语言模型预训练的开放研究,我们发布了Dolma,这是一个使用各种网络内容、科学论文、代码、公共领域书籍、社交媒体和百科全书材料构建的三万亿个标记的英文语料库。此外,我们开源了我们的数据筛选工具包,以便进一步实验和复制我们的工作。在本报告中,我们记录了Dolma,包括其设计原则、构建细节和内容摘要。我们将这个报告与在Dolma的中间状态上训练语言模型的分析和实验结果交织在一起,以分享我们对重要数据筛选实践的了解,包括内容或质量过滤器、去重和多来源混合的作用。Dolma已被用于训练OLMo,这是一个最先进的开放语言模型和框架,旨在构建和研究语言建模的科学。
- 图表
- 解决问题本论文旨在促进语言模型预训练的开放研究,通过发布一个三万亿标记的英语语料库Dolma,并开源数据整理工具包,以便更多的实验和研究。
- 关键思路本论文的关键思路是通过混合多种来源的数据,包括网络内容、科学论文、代码、公共领域书籍、社交媒体和百科全书材料,构建一个大规模的预训练语料库,并探讨了数据整理的重要性。
- 其它亮点本论文的亮点包括使用Dolma语料库训练了OLMo模型,这是一个最先进的开源语言模型和框架,旨在构建和研究语言建模科学。此外,论文还提供了有关数据整理的实用经验,包括内容或质量过滤器、去重和多源混合的作用。
- 最近的相关研究包括GPT-3、BERT和ELMo等语言模型的发展,以及一些关于数据预处理和语言模型微调的研究,如《Improving Language Understanding by Generative Pre-Training》和《ULMFiT: Universal Language Model Fine-tuning for Text Classification》。
沙发等你来抢
去评论
评论
沙发等你来抢