- 简介随着机器学习应用的迅速增长,未来高性能计算系统的工作负载预计将是科学模拟、大数据分析和机器学习应用的混合。模拟是了解在大规模系统上同时运行科学应用、大数据和机器学习工作负载的性能影响的研究工具。本文介绍了Union,一个工作负载管理器,提供了自动框架来促进在CODES中进行混合工作负载模拟。此外,我们使用Union和CODES来研究在两个Dragonfly系统上由传统模拟应用程序和新兴学习应用程序组成的各种混合工作负载。实验结果表明,消息延迟和通信时间都是评估网络干扰的重要性能指标。在高性能计算应用程序中,网络干扰更多地反映在消息延迟变化上,而ML应用程序的性能更多地取决于通信时间。
- 图表
- 解决问题论文旨在探究在HPC系统上同时运行科学模拟、大数据分析和机器学习应用的混合工作负载对性能的影响。研究试图通过模拟来理解网络干扰对混合工作负载的影响。
- 关键思路论文提出了Union,一个自动框架,通过CODES来促进混合工作负载的模拟。研究结果表明,网络干扰对HPC应用的影响更多地反映在消息延迟变化上,而ML应用程序的性能更多地取决于通信时间。
- 其它亮点论文使用Union和CODES研究了传统模拟应用程序和新兴学习应用程序组成的各种混合工作负载,实验结果表明消息延迟和通信时间都是重要的性能指标。论文提供了一个自动框架来促进混合工作负载的模拟。
- 近年来,在HPC系统上同时运行科学模拟、大数据分析和机器学习应用的混合工作负载的研究越来越多。例如,"Performance analysis of HPC workloads on big data and machine learning systems"和"Performance analysis of machine learning workloads on dragonfly networks"等。
沙发等你来抢
去评论
评论
沙发等你来抢