- 简介大型语言模型(LLMs)展示了深刻的语言理解和生成能力,促进了广泛的应用。然而,目前缺乏详细的、开源的方法论,以最小的试错成本和计算资源高效地扩展LLMs超过500亿参数。在本报告中,我们介绍了Tele-FLM(又名FLM-2),这是一个52B的开源多语言大型语言模型,具有稳定、高效的预训练范式和增强的事实判断能力。Tele-FLM展示了优越的多语言语言建模能力,通过文本语料库的BPB进行测量。此外,在英语和中文基础模型评估中,它与涉及更大的预训练FLOPs的强大开源模型(如Llama2-70B和DeepSeek-67B)相当。除了模型权重,我们还分享了核心设计、工程实践和培训细节,我们希望这些能够惠及学术和工业界。
- 图表
- 解决问题论文介绍了一种名为Tele-FLM的52B开源多语言大语言模型,旨在提高大型语言模型的效率和准确性。
- 关键思路Tele-FLM使用了一种稳定、高效的预训练范式,并增强了事实判断能力,展现出优越的多语言建模能力。
- 其它亮点Tele-FLM除了分享模型权重外,还分享了核心设计、工程实践和训练细节,这对学术界和工业界都有益处。实验中使用了多个文本语料库,并在英语和中文基础模型评估中表现出与Llama2-70B和DeepSeek-67B等强大的开源模型相当的水平。
- 最近在这个领域中,还有其他相关研究。
沙发等你来抢
去评论
评论
沙发等你来抢