HLAT: High-quality Large Language Model Pre-trained on AWS Trainium

2024年04月16日
  • 简介
    要使大型语言模型(LLMs)在下游任务中表现良好,需要对数万亿个标记进行预训练。这通常需要大量强大的计算设备,以及稳定的分布式训练框架来加速训练。越来越多的应用程序利用AI / ML,导致昂贵的传统加速器(如GPU)短缺,需要可扩展且成本效益高的替代专用加速器。 AWS Trainium是第二代机器学习加速器,专为训练大型深度学习模型而构建。它对应的实例Amazon EC2 trn1是LLM训练的GPU实例的替代品。然而,使用trn1在数十亿个参数的LLMs上进行训练具有挑战性,因为它的软件生态系统相对较新。在本文中,我们展示了HLAT:一个7亿个参数的仅解码器LLM,使用trn1实例对1.8万亿个标记进行了预训练。 HLAT的性能与使用NVIDIA GPU和Google TPU分别训练的流行开源基线模型LLaMA和OpenLLaMA进行了基准测试。在各种评估任务中,我们展示了HLAT达到了与基线相当的模型质量。我们还分享了使用Neuron Distributed Training Library(NDTL)的最佳实践,这是一种定制的分布式训练库,可用于AWS Trainium以实现高效训练。我们的工作证明,由NDTL支持的AWS Trainium能够成功地预训练最先进的LLM模型,并具有高性能和成本效益。
  • 图表
  • 解决问题
    本文旨在展示使用AWS Trainium和定制化的分布式训练库Neuron Distributed Training Library(NDTL)成功预训练了一个7亿参数的解码器-only大语言模型(LLM),并在多个评估任务中展示其与基准模型相当的模型质量。
  • 关键思路
    使用AWS Trainium和NDTL定制化分布式训练库进行预训练,可以成功训练高性能、高效且成本效益的大型语言模型。
  • 其它亮点
    本文展示了使用AWS Trainium和NDTL进行预训练的7亿参数的大型语言模型在多个评估任务中与基准模型相当的模型质量,并分享了使用NDTL定制化分布式训练库进行高效训练的最佳实践。
  • 相关研究
    最近在这个领域中,也有一些研究使用不同的硬件平台进行大型语言模型的训练,例如使用NVIDIA GPU和Google TPU。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论