Comparative Study of Large Language Model Architectures on Frontier

2024年02月01日
  • 简介
    大型语言模型(LLMs)在AI界和其他领域引起了广泛关注。其中,预训练生成转换器(GPT)已成为主导架构,衍生出许多变体。然而,这些变体在预训练时经历了不同的条件,包括输入数据、数据预处理和训练方法的变化,导致缺乏受控的比较研究。在本文中,我们使用世界上第一台艾克赛超级计算机Frontier的计算能力,精心研究了两个著名的开源GPT架构,GPT-NeoX和LLaMA。我们采用相同的材料科学文本语料库和全面的端到端流水线,对它们的训练和下游性能进行了比较分析。我们的努力最终实现了在具有挑战性的材料科学基准测试中的最先进性能。此外,我们还研究了计算和能源效率,并提出了一种计算效率高的架构设计方法。据我们所知,这些预训练模型代表了材料科学领域最大的可用模型。我们的发现为在HPC平台上构建LLMs提供了实用指导。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在比较两个GPT架构(GPT-NeoX和LLaMA)在材料科学文本语料库上的训练和下游任务表现,并研究它们的计算和能源效率。
  • 关键思路
    本文使用相同的材料科学文本语料库和全面的端到端流程,比较了GPT-NeoX和LLaMA的训练和下游任务表现,并提出了一种计算效率高的架构设计方法。
  • 其它亮点
    本文使用了Frontier超级计算机,达到了材料科学基准测试的最新性能水平。实验设计详尽,并提供了开源代码。作者还探讨了计算和能源效率,并提出了一种计算效率高的架构设计方法。
  • 相关研究
    近期的相关研究包括《GPT-3》、《GShard》、《Megatron》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问