要使大型语言模型(LLMs)在下游任务中表现良好,需要对数万亿个标记进行预训练。这通常需要大量强大的计算设备,以及稳定的分布式训练框架来加速训练。越来越多的应用程序利用AI / ML,导致昂贵的传统加速器(如GPU)短缺,需要可扩展且成本效益高的替代专用加速器。 AWS Trainium是第二代机器学习加速器,专为训练大型深度学习模型而构建。它对应的实例Amazon EC2 trn1是LLM训练的GPU实例的替代品。然而,使用trn1在数十亿个参数的LLMs上进行训练具有挑战性,因为它的软件生态系统相对较新。在本文中,我们展示了HLAT:一个7亿个参数的仅解码器LLM,使用trn1实例对1.8万亿个标记进行了预训练。 HLAT的性能与使用NVIDIA GPU和Google TPU分别训练的流行开源基线模型LLaMA和OpenLLaMA进行了基准测试。在各种评估任务中,我们展示了HLAT达到了与基线相当的模型质量。我们还分享了使用Neuron Distributed Training Library(NDTL)的最佳实践,这是一种定制的分布式训练库,可用于AWS Trainium以实现高效训练。我们的工作证明,由NDTL支持的AWS Trainium能够成功地预训练最先进的LLM模型,并具有高性能和成本效益。
提问交流