MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

2024年05月29日
  • 简介
    大型语言模型(LLMs)近年来在不同任务上取得了前所未有的性能,但由于商业利益,像GPT、Gemini和Claude这样最具竞争力的模型被封闭在专有接口后,未披露培训细节。最近,许多机构已经开源了几个强大的LLMs,例如LLaMA-3,与现有的封闭源LLMs相当。然而,大多数细节(如中间检查点、预训练语料库和训练代码等)仍未披露,只提供了模型的权重。为了提高LLMs的透明度,研究界已经开始开源真正的开放LLMs(例如Pythia、Amber、OLMo),提供更多细节(例如预训练语料库和训练代码)。这些模型极大地推进了这些大型模型的科学研究,包括它们的优点、缺点、偏见和风险。然而,我们观察到,现有的真正开放的LLMs在推理、知识和编码任务上仍然不如现有的具有相似模型大小的最先进的LLMs。为此,我们开源了MAP-Neo,这是一种高度能力和透明的双语语言模型,具有7B参数,是从头开始训练的,训练了4.5T高质量令牌。我们的MAP-Neo是第一个完全开源的双语LLMs,具有与现有最先进的LLMs相当的性能。此外,我们开源了所有细节,以重现我们的MAP-Neo,提供了清理过的预训练语料库、数据清理管道、检查点和经过良好优化的训练/评估框架。最后,我们希望我们的MAP-Neo将增强和加强开放研究社区,并激发更多创新和创造力,以促进LLMs的进一步改进。
  • 图表
  • 解决问题
    开源大规模双语语言模型的性能仍不足,本文旨在开源一个性能可与闭源模型相媲美的双语语言模型,并提供全部细节以便其他研究人员可以复现和改进。
  • 关键思路
    本文开源了一个性能可与闭源模型相媲美的双语语言模型MAP-Neo,提供了全部细节以便其他研究人员可以复现和改进。该模型是从头开始训练的,参数量为7B,训练数据为4.5T高质量token。这是首个完全开源的双语语言模型。
  • 其它亮点
    本文开源了一个性能可与闭源模型相媲美的双语语言模型MAP-Neo,提供了全部细节以便其他研究人员可以复现和改进。该模型是从头开始训练的,参数量为7B,训练数据为4.5T高质量token。实验结果表明,MAP-Neo在双语翻译任务上取得了与闭源模型相当的性能。本文的开源模型和细节可以帮助其他研究人员更好地研究大规模语言模型的优点、缺点、偏见和风险。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如LLaMA-3,Pythia,Amber和OLMo等开源模型。与此同时,许多闭源模型也在不断涌现,如GPT、Gemini和Claude等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论