Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

2024年08月26日
  • 简介
    深度学习(DL)和大型语言模型(LLMs)的快速进展大大增加了计算能力和带宽的需求。这与更快的计算芯片和互连成本高昂的事实相结合,显著增加了高性能计算(HPC)的建设成本。为了应对这些挑战,我们介绍了Fire-Flyer AI-HPC架构,这是一个协同硬件-软件设计框架及其最佳实践。对于DL训练,我们使用了Fire-Flyer 2,配备了10,000个PCIe A100 GPU,实现了接近DGX-A100的性能,同时将成本降低了一半,能源消耗降低了40%。我们专门设计了HFReduce来加速allreduce通信,并实施了许多措施,以保持我们的计算存储集成网络无拥塞。通过我们的软件堆栈,包括HaiScale、3FS和HAI-Platform,我们通过重叠计算和通信实现了大规模可扩展性。我们在DL训练方面的系统经验为推动未来的AI-HPC进步提供了有价值的见解。
  • 图表
  • 解决问题
    Fire-Flyer AI-HPC架构试图解决深度学习和大型语言模型所需的计算和带宽资源的不断增长,以及构建高性能计算的高昂成本问题。
  • 关键思路
    Fire-Flyer AI-HPC架构是一种硬件和软件协同设计框架,通过优化通信和计算的重叠来实现深度学习训练的可扩展性,同时减少成本和能源消耗。
  • 其它亮点
    Fire-Flyer AI-HPC架构使用10,000个PCIe A100 GPU,实现了与DGX-A100相近的性能,同时将成本减少了一半,能源消耗降低了40%。作者还开发了HFReduce以加速allreduce通信,并实现了许多措施来保持计算-存储集成网络的无拥塞状态。作者还开发了HaiScale、3FS和HAI-Platform等软件堆栈来实现深度学习训练的可扩展性。
  • 相关研究
    最近的相关研究包括使用GPU进行深度学习训练的研究,例如“Scalable Deep Learning on Distributed GPUs with a GPU-Specific Communication Library”和“GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论