Characterization of Large Language Model Development in the Datacenter

2024年03月12日
  • 简介
    大型语言模型(LLMs)在多个转型任务中表现出了令人印象深刻的性能。然而,高效地利用大规模集群资源来开发LLMs并不容易,通常会遇到许多挑战,如频繁的硬件故障、复杂的并行化策略和资源利用不平衡等。本文介绍了我们从GPU数据中心Acme收集的为期六个月的LLM开发工作负载跟踪的深入特征研究。具体来说,我们调查了LLMs和之前的特定任务深度学习(DL)工作负载之间的差异,探索了资源利用模式,并确定了各种作业故障的影响。我们的分析总结了我们遇到的障碍,并发现了优化针对LLMs的系统的潜在机会。此外,我们还介绍了我们的系统努力:(1)容错预训练,通过LLM相关的故障诊断和自动恢复增强容错性。 (2)解耦调度评估,通过试验分解和调度优化实现及时的性能反馈。
  • 图表
  • 解决问题
    该论文旨在解决开发大型语言模型(LLMs)时遇到的挑战,例如硬件故障、并行化策略和资源利用不平衡等问题。
  • 关键思路
    论文通过对六个月的LLM开发工作负载跟踪进行深入研究,探讨LLMs与先前任务特定的深度学习(DL)工作负载之间的差异,探索资源利用模式,并确定各种作业故障的影响。此外,该论文还介绍了两个系统努力:1)容错预训练,通过LLM涉及的故障诊断和自动恢复增强容错性;2)解耦调度评估,通过试验分解和调度优化实现及时的性能反馈。
  • 其它亮点
    该论文的实验设计详尽,使用了GPU数据中心Acme的LLM开发工作负载跟踪,并介绍了两个系统努力来优化LLMs的开发和运行。该论文的研究结果为优化LLMs的开发和运行提供了新的启示。
  • 相关研究
    最近的相关研究包括“Large Scale Language Model Training”和“Efficient Large-Scale Language Model Training on GPU Clusters with Long-Range Communication”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论