- 简介随着在高性能计算系统上执行机器学习工作负载的迅速增加,定期执行机器学习特定基准测试以监测性能并识别问题是有益的。此外,作为爱丁堡国际数据设施的一部分,EPCC目前托管着广泛的机器学习加速器,包括Nvidia GPU、Graphcore Bow Pod64和Cerebras CS-2,这些加速器通过Kubernetes和Slurm进行管理。我们扩展了Reframe框架以支持Kubernetes调度程序后端,并利用Reframe执行机器学习基准测试,我们讨论了跨多个平台和架构集成Reframe所涉及的初步结果和挑战。
- 图表
- 解决问题在HPC系统上进行机器学习工作负载的快速增长,需要定期进行机器学习特定基准测试以监测性能和识别问题。该论文旨在扩展Reframe框架以支持Kubernetes调度程序后端,并利用Reframe执行机器学习基准测试。
- 关键思路该论文的关键思路是扩展Reframe框架以支持Kubernetes调度程序后端,并利用Reframe执行机器学习基准测试。相比当前领域的研究状况,该论文的思路有创新之处。
- 其它亮点该论文的亮点包括使用Kubernetes和Slurm管理多个平台和架构上的机器学习加速器,以及使用Reframe进行机器学习基准测试。论文还讨论了集成Reframe时面临的挑战。
- 最近在该领域中,还有其他与机器学习基准测试相关的研究,例如“MLPerf: A Benchmark Suite for Machine Learning Performance”和“Deep500: A Deep Learning Benchmarking Suite for High-Performance and Reproducible Research”。
沙发等你来抢
去评论
评论
沙发等你来抢