MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

Ge Zhang ,

Scott Qu ,

Jiaheng Liu ,

Chenchen Zhang ,

Chenghua Lin ,

Chou Leuang Yu ,

Danny Pan ,

Esther Cheng ,

Jie Liu ,

Qunshu Lin ,

Raven Yuan ,

Tuney Zheng ,

Wei Pang ,

Xinrun Du ,

Yiming Liang ,

Yinghao Ma ,

Yizhi Li ,

Ziyang Ma ,

Bill Lin ,

Emmanouil Benetos ,

Huan Yang ,

Junting Zhou ,

Kaijing Ma ,

Minghao Liu ,

Morry Niu ,

Noah Wang ,

Quehry Que ,

Ruibo Liu ,

Sine Liu ,

Shawn Guo ,

Soren Gao ,

Wangchunshu Zhou ,

Xinyue Zhang ,

Yizhi Zhou ,

Yubo Wang ,

Yuelin Bai ,

Yuhan Zhang ,

Yuxiang Zhang ,

Zenith Wang ,

Zhenzhu Yang ,

Zijian Zhao ,

Jiajun Zhang ,

Wanli Ouyang ,

Wenhao Huang ,

Wenhu Chen

大型语言模型（LLMs）在近年来在不同任务上取得了空前的性能，但由于商业利益，最具竞争力的模型（如GPT、Gemini和Claude）被封闭在专有接口后，未披露训练细节。最近，许多机构已经开源了几个强大的LLMs，如LLaMA-3，与现有的闭源LLMs相当。但是，大多数细节（例如中间检查点、预训练语料库和训练代码等）仍未公开。为了提高LLMs的透明度，研究社区已经开始开源真正的开放LLMs（例如Pythia、Amber、OLMo），提供更多细节（例如预训练语料库和训练代码）。这些模型大大推进了对这些大型模型的科学研究，包括它们的优势、弱点、偏见和风险。然而，我们观察到，现有的真正开放的LLMs在推理、知识和编码任务上仍然不如现有的具有相似模型大小的最先进的LLMs。为此，我们开源了MAP-Neo，这是一个高度能力强、透明的双语语言模型，具有7B个参数，是从头开始训练的，使用4.5T高质量令牌。我们的MAP-Neo是第一个完全开源的双语LLM，与现有的最先进的LLMs相比具有相当的性能。此外，我们开源了所有细节，以重现我们的MAP-Neo，提供了经过清理的预训练语料库、数据清理管道、检查点和经过良好优化的训练/评估框架。最后，我们希望我们的MAP-Neo将增强和加强开放研究社区，并激发更多的创新和创造力，以促进LLMs的进一步改进。

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

评论