- 简介大型语言模型(LLMs)在近年来在不同任务上取得了空前的性能,但由于商业利益,最具竞争力的模型(如GPT、Gemini和Claude)被封闭在专有接口后,未披露训练细节。最近,许多机构已经开源了几个强大的LLMs,如LLaMA-3,与现有的闭源LLMs相当。但是,大多数细节(例如中间检查点、预训练语料库和训练代码等)仍未公开。为了提高LLMs的透明度,研究社区已经开始开源真正的开放LLMs(例如Pythia、Amber、OLMo),提供更多细节(例如预训练语料库和训练代码)。这些模型大大推进了对这些大型模型的科学研究,包括它们的优势、弱点、偏见和风险。然而,我们观察到,现有的真正开放的LLMs在推理、知识和编码任务上仍然不如现有的具有相似模型大小的最先进的LLMs。为此,我们开源了MAP-Neo,这是一个高度能力强、透明的双语语言模型,具有7B个参数,是从头开始训练的,使用4.5T高质量令牌。我们的MAP-Neo是第一个完全开源的双语LLM,与现有的最先进的LLMs相比具有相当的性能。此外,我们开源了所有细节,以重现我们的MAP-Neo,提供了经过清理的预训练语料库、数据清理管道、检查点和经过良好优化的训练/评估框架。最后,我们希望我们的MAP-Neo将增强和加强开放研究社区,并激发更多的创新和创造力,以促进LLMs的进一步改进。
- 图表
- 解决问题开源一个可透明的双语语言模型,解决当前开源语言模型在推理、知识和编程任务上表现不如闭源模型的问题。
- 关键思路开源一个7B参数的双语语言模型MAP-Neo,提供完整的训练细节和优化的训练/评估框架,使得研究人员可以更好地理解和改进大型语言模型。
- 其它亮点MAP-Neo是第一个完全开源的双语语言模型,其性能与目前闭源模型相当,提供了清理后的预训练语料库、数据清理流程、检查点和优化的训练/评估框架。该模型的开源将有助于加强开放研究社区,激发更多的创新和创造力,促进LLM的进一步改进。
- 最近的相关研究包括LLaMA-3、Pythia、Amber和OLMo等开源语言模型。
沙发等你来抢
去评论
评论
沙发等你来抢