Characterization of Large Language Model Development in the Datacenter

简介

大型语言模型（LLMs）在多个转型任务中表现出了令人印象深刻的性能。然而，高效地利用大规模集群资源来开发LLMs并不容易，通常会遇到许多挑战，如频繁的硬件故障、复杂的并行化策略和资源利用不平衡等。本文介绍了我们从GPU数据中心Acme收集的为期六个月的LLM开发工作负载跟踪的深入特征研究。具体来说，我们调查了LLMs和之前的特定任务深度学习（DL）工作负载之间的差异，探索了资源利用模式，并确定了各种作业故障的影响。我们的分析总结了我们遇到的障碍，并发现了优化针对LLMs的系统的潜在机会。此外，我们还介绍了我们的系统努力：（1）容错预训练，通过LLM相关的故障诊断和自动恢复增强容错性。（2）解耦调度评估，通过试验分解和调度优化实现及时的性能反馈。
图表
解决问题

该论文旨在解决开发大型语言模型（LLMs）时遇到的挑战，例如硬件故障、并行化策略和资源利用不平衡等问题。
关键思路

论文通过对六个月的LLM开发工作负载跟踪进行深入研究，探讨LLMs与先前任务特定的深度学习（DL）工作负载之间的差异，探索资源利用模式，并确定各种作业故障的影响。此外，该论文还介绍了两个系统努力：1）容错预训练，通过LLM涉及的故障诊断和自动恢复增强容错性；2）解耦调度评估，通过试验分解和调度优化实现及时的性能反馈。
其它亮点

该论文的实验设计详尽，使用了GPU数据中心Acme的LLM开发工作负载跟踪，并介绍了两个系统努力来优化LLMs的开发和运行。该论文的研究结果为优化LLMs的开发和运行提供了新的启示。
相关研究

最近的相关研究包括“Large Scale Language Model Training”和“Efficient Large-Scale Language Model Training on GPU Clusters with Long-Range Communication”。

Characterization of Large Language Model Development in the Datacenter

评论