Tele-FLM Technical Report

简介

大型语言模型(LLMs)展示了深刻的语言理解和生成能力，促进了广泛的应用。然而，目前缺乏详细的、开源的方法论，以最小的试错成本和计算资源高效地扩展LLMs超过500亿参数。在本报告中，我们介绍了Tele-FLM（又名FLM-2），这是一个52B的开源多语言大型语言模型，具有稳定、高效的预训练范式和增强的事实判断能力。Tele-FLM展示了优越的多语言语言建模能力，通过文本语料库的BPB进行测量。此外，在英语和中文基础模型评估中，它与涉及更大的预训练FLOPs的强大开源模型（如Llama2-70B和DeepSeek-67B）相当。除了模型权重，我们还分享了核心设计、工程实践和培训细节，我们希望这些能够惠及学术和工业界。
图表
解决问题

论文介绍了一种名为Tele-FLM的52B开源多语言大语言模型，旨在提高大型语言模型的效率和准确性。
关键思路

Tele-FLM使用了一种稳定、高效的预训练范式，并增强了事实判断能力，展现出优越的多语言建模能力。
其它亮点

Tele-FLM除了分享模型权重外，还分享了核心设计、工程实践和训练细节，这对学术界和工业界都有益处。实验中使用了多个文本语料库，并在英语和中文基础模型评估中表现出与Llama2-70B和DeepSeek-67B等强大的开源模型相当的水平。
相关研究

最近在这个领域中，还有其他相关研究。