MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

简介

我们介绍了设计、实现和工程经验，用于构建和部署 MegaScale，这是一个用于训练超过10,000个GPU规模的大型语言模型（LLM）的生产系统。在这种规模下训练LLM带来了前所未有的挑战，对于训练效率和稳定性都提出了要求。我们采取了全栈方法，通过模型块和优化器设计、计算和通信重叠、运算符优化、数据流水线和网络性能调优来共同设计算法和系统组件。在生产中保持高效率（即稳定性）是一个重要的考虑因素，考虑到LLM训练作业的长时间，许多难以稳定的问题只有在大规模下才会出现，深入的可观察性是解决这些问题的关键。我们开发了一组诊断工具来监控系统组件和事件，识别根本原因，并得出有效的技术来实现容错和减轻滞后现象。MegaScale在12,288个GPU上训练175B LLM模型时实现了55.2%的模型FLOPs利用率（MFU），相比Megatron-LM提高了1.34倍的MFU。我们分享了在识别和修复故障和滞后者方面的操作经验。我们希望通过从系统的角度阐述问题并分享经验，这项工作可以激发未来的LLM系统研究。
图表
解决问题

本论文旨在解决训练大型语言模型（LLMs）时的效率和稳定性问题，特别是在超过10,000个GPU的规模下。这是否是一个新问题？
关键思路

论文采用全栈方法，通过协同设计算法和系统组件，包括模型块和优化器设计、计算和通信重叠、操作符优化、数据管道和网络性能调优等，来提高训练效率和稳定性。同时，论文开发了一组诊断工具来监测系统组件和事件，识别根本原因，并得出有效的技术来实现容错和减轻滞后。
其它亮点

论文使用MegaScale系统在12,288个GPU上训练175B LLM模型，实现了55.2％的模型FLOPs利用率（MFU），相比Megatron-LM提高了1.34倍。论文还分享了在识别和修复故障和滞后者方面的操作经验。值得关注的是，论文开发的诊断工具可以深入堆栈中监测系统组件和事件，识别根本原因。
相关研究

在这个领域中，最近的相关研究有：Megatron-LM、GShard等。

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

评论