MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

Ge Zhang ,
Scott Qu ,
Jiaheng Liu ,
Chenchen Zhang ,
Chenghua Lin ,
Chou Leuang Yu ,
Danny Pan ,
Esther Cheng ,
Jie Liu ,
Qunshu Lin ,
Raven Yuan ,
Tuney Zheng ,
Wei Pang ,
Xinrun Du ,
Yiming Liang ,
Yinghao Ma ,
Yizhi Li ,
Ziyang Ma ,
Bill Lin ,
Emmanouil Benetos ,
Huan Yang ,
Junting Zhou ,
Kaijing Ma ,
Minghao Liu ,
Morry Niu ,
Noah Wang ,
Quehry Que ,
Ruibo Liu ,
Sine Liu ,
Shawn Guo ,
Soren Gao ,
Wangchunshu Zhou ,
Xinyue Zhang ,
Yizhi Zhou ,
Yubo Wang ,
Yuelin Bai ,
Yuhan Zhang ,
Yuxiang Zhang ,
Zenith Wang ,
Zhenzhu Yang ,
Zijian Zhao ,
Jiajun Zhang ,
Wanli Ouyang ,
Wenhao Huang ,
Wenhu Chen
2024年05月29日
  • 简介
    大型语言模型(LLMs)在近年来在不同任务上取得了空前的性能,但由于商业利益,最具竞争力的模型(如GPT、Gemini和Claude)被封闭在专有接口后,未披露训练细节。最近,许多机构已经开源了几个强大的LLMs,如LLaMA-3,与现有的闭源LLMs相当。但是,大多数细节(例如中间检查点、预训练语料库和训练代码等)仍未公开。为了提高LLMs的透明度,研究社区已经开始开源真正的开放LLMs(例如Pythia、Amber、OLMo),提供更多细节(例如预训练语料库和训练代码)。这些模型大大推进了对这些大型模型的科学研究,包括它们的优势、弱点、偏见和风险。然而,我们观察到,现有的真正开放的LLMs在推理、知识和编码任务上仍然不如现有的具有相似模型大小的最先进的LLMs。为此,我们开源了MAP-Neo,这是一个高度能力强、透明的双语语言模型,具有7B个参数,是从头开始训练的,使用4.5T高质量令牌。我们的MAP-Neo是第一个完全开源的双语LLM,与现有的最先进的LLMs相比具有相当的性能。此外,我们开源了所有细节,以重现我们的MAP-Neo,提供了经过清理的预训练语料库、数据清理管道、检查点和经过良好优化的训练/评估框架。最后,我们希望我们的MAP-Neo将增强和加强开放研究社区,并激发更多的创新和创造力,以促进LLMs的进一步改进。
  • 图表
  • 解决问题
    开源一个可透明的双语语言模型,解决当前开源语言模型在推理、知识和编程任务上表现不如闭源模型的问题。
  • 关键思路
    开源一个7B参数的双语语言模型MAP-Neo,提供完整的训练细节和优化的训练/评估框架,使得研究人员可以更好地理解和改进大型语言模型。
  • 其它亮点
    MAP-Neo是第一个完全开源的双语语言模型,其性能与目前闭源模型相当,提供了清理后的预训练语料库、数据清理流程、检查点和优化的训练/评估框架。该模型的开源将有助于加强开放研究社区,激发更多的创新和创造力,促进LLM的进一步改进。
  • 相关研究
    最近的相关研究包括LLaMA-3、Pythia、Amber和OLMo等开源语言模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论