- 简介随着机器学习应用的快速增长,未来高性能计算系统的工作负载预计将是科学模拟、大数据分析和机器学习应用的混合。模拟是了解在大规模系统上同时运行科学应用、大数据和机器学习工作负载的性能影响的重要研究工具。本文介绍了Union,一个工作负载管理器,提供了自动框架来促进在CODES中进行混合工作负载模拟。此外,我们使用Union和CODES来研究在两个Dragonfly系统上组成的传统模拟应用和新兴学习应用的各种混合工作负载。实验结果表明,消息延迟和通信时间都是评估网络干扰的重要性能指标。在高性能计算应用程序中,网络干扰更多地反映在消息延迟变化上,而机器学习应用程序的性能更多地取决于通信时间。
- 图表
- 解决问题本文旨在研究大规模系统上混合工作负载的性能影响,包括科学模拟、大数据分析和机器学习应用。通过开发Union,一个自动化的工作负载管理器,结合CODES进行混合工作负载模拟,以探究传统模拟应用和新兴学习应用的混合工作负载对龙脉系统的影响。
- 关键思路本文提出了Union工作负载管理器,用于自动化混合工作负载模拟,并探究了传统模拟应用和新兴学习应用的混合工作负载对大规模系统的性能影响。研究发现,网络干扰对HPC应用的影响更多体现在消息延迟的变化上,而机器学习应用的性能则更多地取决于通信时间。
- 其它亮点本文的亮点在于提出了Union工作负载管理器,实现了自动化混合工作负载模拟,并对传统模拟应用和新兴学习应用的混合工作负载进行了实验研究。研究表明,网络干扰对HPC应用的影响更多体现在消息延迟的变化上,而机器学习应用的性能则更多地取决于通信时间。
- 近期的相关研究包括:1. 'Performance Modeling and Prediction of Machine Learning Applications on HPC Systems',2. 'Evaluating the Performance of Deep Learning Frameworks on CPUs and GPUs',3. 'Characterizing and Mitigating the Impact of Network Contention on Distributed Deep Learning Training'等。
沙发等你来抢
去评论
评论
沙发等你来抢