Tele-FLM Technical Report

Xiang Li,
Yiqun Yao,
Xin Jiang,
Xuezhi Fang,
Chao Wang,
Xinzhang Liu,
Zihan Wang,
Yu Zhao,
Xin Wang,
Yuyao Huang,
Shuangyong Song,
Yongxiang Li,
Zheng Zhang,
Bo Zhao,
Aixin Sun,
Yequan Wang,
Zhongjiang He,
Zhongyuan Wang,
Xuelong Li,
Tiejun Huang
101
热度
NLP
AI
2024年04月25日
  • 简介
    大型语言模型(LLMs)展示了深刻的语言理解和生成能力,促进了广泛的应用。然而,目前缺乏详细的、开源的方法论,以最小的试错成本和计算资源高效地扩展LLMs超过500亿参数。在本报告中,我们介绍了Tele-FLM(又名FLM-2),这是一个52B的开源多语言大型语言模型,具有稳定、高效的预训练范式和增强的事实判断能力。Tele-FLM展示了优越的多语言语言建模能力,通过文本语料库的BPB进行测量。此外,在英语和中文基础模型评估中,它与涉及更大的预训练FLOPs的强大开源模型(如Llama2-70B和DeepSeek-67B)相当。除了模型权重,我们还分享了核心设计、工程实践和培训细节,我们希望这些能够惠及学术和工业界。
  • 图表
  • 解决问题
    论文介绍了一种名为Tele-FLM的52B开源多语言大语言模型,旨在提高大型语言模型的效率和准确性。
  • 关键思路
    Tele-FLM使用了一种稳定、高效的预训练范式,并增强了事实判断能力,展现出优越的多语言建模能力。
  • 其它亮点
    Tele-FLM除了分享模型权重外,还分享了核心设计、工程实践和训练细节,这对学术界和工业界都有益处。实验中使用了多个文本语料库,并在英语和中文基础模型评估中表现出与Llama2-70B和DeepSeek-67B等强大的开源模型相当的水平。
  • 相关研究
    最近在这个领域中,还有其他相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论