FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs

2025年09月03日
  • 简介
    大语言模型(LLMs)因其强大的能力而在多个领域产生了深远影响。然而,在前所未有的规模上训练这些模型需要庞大的AI加速器集群以及复杂的并行策略,这在长期训练过程中对系统可靠性构成了重大挑战。一个主要问题在于,由于硬件和软件故障不可避免,训练时间可能因此遭受巨大损失。为应对这些挑战,我们提出了FlashRecovery——一种快速、低成本的故障恢复系统。该系统包含三个核心模块:(1)主动实时故障检测。该模块持续监控训练状态,能够在数秒内识别硬件和软件故障,从而实现快速响应;(2)与规模无关的任务重启。通过为正常节点和故障节点采用不同的恢复策略,并结合优化的通信组重建协议,我们的方法确保恢复时间几乎恒定,不随集群规模扩大而增加;(3)单步无检查点恢复。我们提出的新型恢复机制支持单步恢复,完全摆脱了传统检查点机制的依赖及其带来的开销。综合以上创新,FlashRecovery实现了最优的恢复时间目标(RTO)和恢复点目标(RPO),显著提升了长时间大语言模型训练的可靠性与效率。实验结果表明,FlashRecovery系统能够在拥有4800台设备的训练集群上于150秒内完成训练恢复。我们还验证了在不同规模的训练任务中,故障恢复所需时间几乎保持一致。
  • 作者讲解
  • 图表
  • 解决问题
    这篇论文旨在解决大规模训练大型语言模型(LLMs)过程中因硬件或软件故障导致的训练中断问题。传统方法在系统故障恢复时通常依赖检查点机制,恢复时间长且资源消耗大,尤其是在超大规模集群环境下。这是一个在当前LLM训练实践中非常现实且尚未完全解决的问题。
  • 关键思路
    论文提出FlashRecovery系统,其核心创新包括:实时主动故障检测、与集群规模无关的任务重启机制,以及无需检查点的单步恢复机制。相比现有方法,该系统无需依赖传统检查点,显著降低了恢复时间和资源开销,同时具备快速响应能力和高度可扩展性。
  • 其它亮点
    1. FlashRecovery可在150秒内完成对包含4800个设备的训练集群的故障恢复 2. 恢复时间几乎不随集群规模变化,表现出良好的扩展性 3. 提出了一种新的通信组重建协议,支持快速任务重启 4. 实验验证了系统在不同规模训练任务上的恢复效率 5. 完全无需检查点的设计减少了I/O和存储开销
  • 相关研究
    1. Zhang et al., 'ZeRO: Memory Optimized Model Training for Very Large Models', 2019 2. Li et al., 'Fault Tolerance in Distributed Deep Learning: A Survey', 2021 3. Rajbhandari et al., 'DeepSpeed: System Optimizations Enable Training Dense Models with Over 100 Billion Parameters', 2020 4. Chen et al., 'Low-Cost Checkpointing for Large-Scale Deep Learning Systems', 2022 5. Wang et al., 'Real-Time Failure Detection in Distributed AI Training Clusters', 2023
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问