GPT-4等基础模型推动了人工智能的快速改进。然而,最强大的模型是封闭式商业模型或只是部分开放模型。RedPajama是一个创建一组领先的、完全开源模型的项目。今天,我们很高兴地宣布该项目的第一步已经完成:复制超过1.2万亿个令牌的LLaMA培训数据集。

当今最有能力的基金会模型被关闭在商业API后面,这限制了研究、定制及其与敏感数据的使用。如果开放社区能够缩小开放和封闭模型之间的质量差距,完全开源模型有望消除这些限制。最近,这方面取得了很大进展。在许多方面,人工智能正在经历其Linux时刻。稳定的扩散表明,开源不仅可以与DALL-E等商业产品的质量相媲美,还可以从世界各地社区的广泛参与中获得令人难以置信的创造力。随着最近发布的LLaMAAlpacaVicunaKoala等半开放模型,以及PythiaOpenChatKitOpen AssistantDolly等全开放模型,围绕大型语言模型开始了类似的运动。

我们正在推出RedPajama,努力制作一个可复制的、完全开放的、领先的语言模型。RedPajama是Together、Ontocord.aiETH DS3LabStanford CRFMHazy ResearchMILA Québec AI Institute之间的合作。RedPajama有三个关键组成部分:

  1. 培训前数据,既需要高质量又具有广泛的覆盖范围

  2. 基于这些数据进行大规模训练的基本模型

  3. 指令调优数据和模型,改进了基本模型,使其可用和安全

今天,我们发布了第一个组件,训练前数据。

“RedPajama基础数据集是按照LLaMA论文中描述的配方创建的1.2万亿个令牌完全开放数据集。”

我们的出发点是LLaMA,它是领先的开放基础模型套件,原因有二:首先,LLaMA接受了非常大的(1.2万亿个令牌)数据集的培训,该数据集经过仔细过滤以获得质量。其次,70亿参数LLaMA模型的训练时间要长得多,远远超出了Chincilla最优点,以确保该模型尺寸的最佳质量。70亿参数模型对开放社区特别有价值,因为它可以在各种GPU上运行,包括许多消费级GPU。然而,LLaMA及其所有衍生物(包括羊驼、维库纳和考拉)仅用于非商业研究目的。我们的目标是创建LLaMA的完全开源复制,可用于商业应用,并为研究提供更透明的管道。

 

RedPajama基础数据集

完整的RedPajama 1.2万亿令牌数据集和更小、更消耗的随机样本可以通过Hugging Face下载。完整的数据集在磁盘上解压缩了~5TB,下载压缩了~3TB。

RedPajama-Data-1T由七个数据片组成:

  • CommonCrawl:五个CommonCrawl转储,使用CCNet管道处理,并通过几个质量过滤器过滤,包括为类似维基百科的页面选择的线性分类器。

  • C4:标准C4数据集

  • GitHub:GitHub数据,按许可证和质量过滤

  • arXiv:去除样板的科学文章

  • 书籍:开放书籍的语料库,因内容相似性而重复

  • 维基百科:维基百科页面的子集,删除样板

  • StackExchange:StackExchange下流行网站的子集,删除样板

对于每个数据切片,我们都会进行仔细的数据预处理和过滤,并调整质量过滤器,以大致匹配Meta AILLaMA论文中报告的令牌数量:

  红帕贾马 LLaMA*
通用爬行 878亿 8520亿
C4 175亿 1900亿
GitHub 59亿 1000亿
图书 26亿 250亿
ArXiv 280亿 330亿
维基百科 24亿 250亿
StackExchange 20亿 27亿
总数 1.2万亿 1.25万亿

*从https://arxiv.org/abs/2302.13971中的表1中估计

我们正在Github上公开提供所有数据预处理和质量过滤器。任何人都可以遵循数据准备配方并复制RedPajama-Data-1T。

 

交互式分析RedPajama基础数据集

Meerkat项目合作,我们正在发布Meerkat仪表板和嵌入,用于探索语料库的Github子集。下图显示了仪表板的预览。

您可以在Github上找到有关如何安装和使用仪表板的说明。

 

下一页:模型、说明和OpenChatKit

在复制了训练前数据后,下一步是训练一个强大的基础模型。作为INCITE计划的一部分,在橡树岭领导力计算设施(OLCF)的支持下,我们正在培训一整套模型,第一批模型将在未来几周内推出。

有了强大的基础模型,我们很高兴能指导调整模型。羊驼展示了指令调优的力量——只需50K高质量、多样化的指令,它就能解锁显著改进的能力。通过OpenChatKit,我们收到了数十万个高质量的自然用户指令,这些指令将用于发布RedPajama模型的指令调整版本。

 

致谢

我们感谢不断增长的开源人工智能社区所做的工作,这些工作使这个项目成为可能。

这包括: