Near-Optimal Wafer-Scale Reduce

简介

高性能计算（HPC）应用的关键基石是高效的Reduce和AllReduce通信集合。我们首次系统地研究了Cerebras Wafer-Scale Engine（WSE）上的Reduce和AllReduce。该架构已被证明在机器学习工作负载和FFT等其他计算问题上实现了前所未有的性能。我们引入了一个性能模型来估计WSE上算法的执行时间，并在广泛的输入大小范围内进行了实验验证我们的预测。除了现有的实现，我们还设计和实现了几个专门针对该架构的新算法。此外，我们为Reduce操作在WSE上的运行时间建立了下限。基于我们的模型，我们自动生成了代码，在整个输入大小范围内实现了接近最优的性能。实验表明，我们的新Reduce和AllReduce算法比当前供应商解决方案的性能提高了最多3.27倍。此外，我们的模型预测的性能误差不到4％。所提出的通信集合扩大了可以受益于WSE高吞吐量的HPC应用的范围。我们的模型驱动方法展示了一种有纪律的方法，可以引领在晶片级别的架构上进一步的算法进步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

优化Cerebras Wafer-Scale Engine上的Reduce和AllReduce通信集合以提高HPC应用的性能
关键思路

提出了一个性能模型来估计算法在WSE上的执行时间，并设计和实现了多种新算法来优化Reduce和AllReduce操作。使用自动生成的代码实现了接近最优的性能，并通过实验验证了模型的准确性。
其它亮点

论文介绍了Cerebras Wafer-Scale Engine架构的Reduce和AllReduce性能，并提出了多种新算法来优化性能。使用自动生成的代码实现了接近最优的性能，并通过实验验证了模型的准确性。
相关研究

最近的相关研究包括：'Optimizing Collective Operations on Large-Scale HPC Systems Using Machine Learning'和'Performance Analysis and Optimization of Parallel Allreduce Communication on Multi-GPU Systems'等。

提问交流

提问交流