Robust LLM Training Infrastructure at ByteDance

2025年09月19日
  • 简介
    大语言模型(LLM)的训练规模已达到数万张GPU,并且仍在持续扩大,从而能够更快地训练更大的模型。然而,随着资源规模的扩展,各类故障(如CUDA错误、出现NaN值、任务挂起等)也日益普遍,给训练的稳定性带来了重大挑战。任何大规模的大语言模型训练基础设施都应致力于最大限度减少训练中断、实现高效的故障诊断以及有效的容错能力,以支持高效且连续的训练过程。本文提出了ByteRobust,这是一个专为大语言模型稳定、鲁棒训练而设计的大规模GPU基础设施管理系统。该系统充分利用大语言模型训练过程的独特性,将故障的检测与恢复作为首要任务。ByteRobust结合大语言模型训练中的并行性与特性,通过一种高效的数据驱动方法,实现了大容量的容错能力、快速的故障定界与定位,全面保障了大语言模型训练任务的连续性和高效性。ByteRobust已在生产级GPU平台上部署,针对在9,600张GPU上运行为期三个月的训练任务,实现了97%的端到端训练恢复率(ETTR)。
  • 作者讲解
  • 图表
  • 解决问题
    大规模语言模型(LLM)训练在扩展到数万GPU时面临频繁的系统故障(如CUDA错误、NaN值、任务挂起等),严重影响训练稳定性。如何实现最小化训练中断、高效故障诊断与有效容错,成为当前大规模LLM训练基础设施中的关键挑战。该问题随着模型和硬件规模的扩大日益突出,虽非全新问题,但在LLM特定场景下的系统级鲁棒性需求使其更具紧迫性和复杂性。
  • 关键思路
    ByteRobust提出了一套专为LLM训练优化的大规模GPU基础设施管理系统,其核心思想是利用LLM训练过程的独特并行特性与模式,将故障检测与恢复作为常规流程优先处理。通过数据驱动的方法实现高容量容错、快速故障定界与定位,从而保障训练的连续性与效率。相比现有通用容错机制,ByteRobust针对LLM训练的工作负载特征进行深度定制,显著提升了实际生产环境中的可靠性。
  • 其它亮点
    系统已在9,600 GPU的生产平台上部署,对为期三个月的训练任务实现了97%的ETTR(End-to-Training-Ratio,即有效训练时间占比),表明其极高的运行效率与稳定性。实验设计基于真实大规模训练任务,验证了系统在长期、高并发场景下的实用性。论文强调了数据驱动的故障分析方法,并实现了自动化的故障隔离与恢复。代码是否开源未明确提及,但其工程实践为构建鲁棒AI基础设施提供了重要参考,值得进一步研究其可迁移性至其他分布式训练场景。
  • 相关研究
    1. Optimizing Distributed Model Training in Cloud Environments with Failure Prediction 2. ZeRO: Memory Optimizations Toward Infinitely Large Models 3. Fault-Tolerant Training of Deep Neural Networks via Checkpointing and Rollback 4. Elastic Distributed Training for Large-Scale Machine Learning 5. DeepSpeed: System Optimizations Enable Training of Ultra-Large Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问