FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs

向作者提问

NEW

简介

大语言模型（LLMs）因其强大的能力而在多个领域产生了深远影响。然而，在前所未有的规模上训练这些模型需要庞大的AI加速器集群以及复杂的并行策略，这在长期训练过程中对系统可靠性构成了重大挑战。一个主要问题在于，由于硬件和软件故障不可避免，训练时间可能因此遭受巨大损失。为应对这些挑战，我们提出了FlashRecovery——一种快速、低成本的故障恢复系统。该系统包含三个核心模块：（1）主动实时故障检测。该模块持续监控训练状态，能够在数秒内识别硬件和软件故障，从而实现快速响应；（2）与规模无关的任务重启。通过为正常节点和故障节点采用不同的恢复策略，并结合优化的通信组重建协议，我们的方法确保恢复时间几乎恒定，不随集群规模扩大而增加；（3）单步无检查点恢复。我们提出的新型恢复机制支持单步恢复，完全摆脱了传统检查点机制的依赖及其带来的开销。综合以上创新，FlashRecovery实现了最优的恢复时间目标（RTO）和恢复点目标（RPO），显著提升了长时间大语言模型训练的可靠性与效率。实验结果表明，FlashRecovery系统能够在拥有4800台设备的训练集群上于150秒内完成训练恢复。我们还验证了在不同规模的训练任务中，故障恢复所需时间几乎保持一致。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

这篇论文旨在解决大规模训练大型语言模型（LLMs）过程中因硬件或软件故障导致的训练中断问题。传统方法在系统故障恢复时通常依赖检查点机制，恢复时间长且资源消耗大，尤其是在超大规模集群环境下。这是一个在当前LLM训练实践中非常现实且尚未完全解决的问题。
关键思路

论文提出FlashRecovery系统，其核心创新包括：实时主动故障检测、与集群规模无关的任务重启机制，以及无需检查点的单步恢复机制。相比现有方法，该系统无需依赖传统检查点，显著降低了恢复时间和资源开销，同时具备快速响应能力和高度可扩展性。
其它亮点

1. FlashRecovery可在150秒内完成对包含4800个设备的训练集群的故障恢复 2. 恢复时间几乎不随集群规模变化，表现出良好的扩展性 3. 提出了一种新的通信组重建协议，支持快速任务重启 4. 实验验证了系统在不同规模训练任务上的恢复效率 5. 完全无需检查点的设计减少了I/O和存储开销
相关研究

1. Zhang et al., 'ZeRO: Memory Optimized Model Training for Very Large Models', 2019 2. Li et al., 'Fault Tolerance in Distributed Deep Learning: A Survey', 2021 3. Rajbhandari et al., 'DeepSpeed: System Optimizations Enable Training Dense Models with Over 100 Billion Parameters', 2020 4. Chen et al., 'Low-Cost Checkpointing for Large-Scale Deep Learning Systems', 2022 5. Wang et al., 'Real-Time Failure Detection in Distributed AI Training Clusters', 2023

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问