- 简介由于AI工作负载在数据中心和HPC集群中推动了高带宽网络的转变,无意中加剧了网络延迟,从而对通信密集型HPC应用程序的性能产生了不利影响。由于大规模MPI应用程序在其网络延迟容忍度方面通常存在显着差异,因此准确确定应用程序可以承受的网络延迟程度而不会出现显着性能下降至关重要。目前评估这个指标的方法通常依赖于专用硬件或网络模拟器,这可能是不灵活和耗时的。为此,我们介绍了LLAMP,这是一种新颖的工具链,采用LogGPS模型和线性规划,提供了一种有效的分析方法来评估HPC应用程序的网络延迟容忍度。LLAMP为软件开发人员和网络架构师提供了优化HPC基础设施和战略性部署应用程序以最小化延迟影响所需的基本见解。通过我们在各种MPI应用程序(如MILC、LULESH和LAMMPS)上的验证,我们展示了我们工具的高准确性,相对预测误差通常低于2%。此外,我们还包括了ICON天气和气候模型的案例研究,以说明LLAMP在评估集体算法和网络拓扑方面的广泛适用性。
- 图表
- 解决问题LLAMP试图解决通信密集型HPC应用程序在高带宽网络上的网络延迟问题,并提供一种有效的方法来评估应用程序的网络延迟容忍度。
- 关键思路LLAMP使用LogGPS模型和线性规划的方法来评估HPC应用程序的网络延迟容忍度,提供了一种高效的分析方法,相比于当前使用的专用硬件或网络模拟器的方法更加灵活和快速。
- 其它亮点LLAMP的实验结果表明其高准确性,相对预测误差通常低于2%。此外,LLAMP的广泛适用性也得到验证,可以用于评估集体算法和网络拓扑结构。论文开源了LLAMP的代码。
- 在相关研究方面,目前已有一些研究探讨了HPC应用程序的网络延迟容忍度评估方法,例如基于网络模拟器的方法和基于专用硬件的方法。
沙发等你来抢
去评论
评论
沙发等你来抢