Near-Optimal Wafer-Scale Reduce

2024年04月24日
  • 简介
    高性能计算(HPC)应用的关键基石是高效的Reduce和AllReduce通信集合。我们首次系统地研究了Cerebras Wafer-Scale Engine(WSE)上的Reduce和AllReduce。该架构已被证明在机器学习工作负载和FFT等其他计算问题上实现了前所未有的性能。我们引入了一个性能模型来估计WSE上算法的执行时间,并在广泛的输入大小范围内进行了实验验证我们的预测。除了现有的实现,我们还设计和实现了几个专门针对该架构的新算法。此外,我们为Reduce操作在WSE上的运行时间建立了下限。基于我们的模型,我们自动生成了代码,在整个输入大小范围内实现了接近最优的性能。实验表明,我们的新Reduce和AllReduce算法比当前供应商解决方案的性能提高了最多3.27倍。此外,我们的模型预测的性能误差不到4%。所提出的通信集合扩大了可以受益于WSE高吞吐量的HPC应用的范围。我们的模型驱动方法展示了一种有纪律的方法,可以引领在晶片级别的架构上进一步的算法进步。
  • 作者讲解
  • 解决问题
    优化Cerebras Wafer-Scale Engine上的Reduce和AllReduce通信集合以提高HPC应用的性能
  • 关键思路
    提出了一个性能模型来估计算法在WSE上的执行时间,并设计和实现了多种新算法来优化Reduce和AllReduce操作。使用自动生成的代码实现了接近最优的性能,并通过实验验证了模型的准确性。
  • 其它亮点
    论文介绍了Cerebras Wafer-Scale Engine架构的Reduce和AllReduce性能,并提出了多种新算法来优化性能。使用自动生成的代码实现了接近最优的性能,并通过实验验证了模型的准确性。
  • 相关研究
    最近的相关研究包括:'Optimizing Collective Operations on Large-Scale HPC Systems Using Machine Learning'和'Performance Analysis and Optimization of Parallel Allreduce Communication on Multi-GPU Systems'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问