Benchmarking Machine Learning Applications on Heterogeneous Architecture using Reframe

2024年04月16日
  • 简介
    随着在高性能计算系统上执行机器学习工作负载的迅速增加,定期执行机器学习特定基准测试以监测性能并识别问题是有益的。此外,作为爱丁堡国际数据设施的一部分,EPCC目前托管着广泛的机器学习加速器,包括Nvidia GPU、Graphcore Bow Pod64和Cerebras CS-2,这些加速器通过Kubernetes和Slurm进行管理。我们扩展了Reframe框架以支持Kubernetes调度程序后端,并利用Reframe执行机器学习基准测试,我们讨论了跨多个平台和架构集成Reframe所涉及的初步结果和挑战。
  • 图表
  • 解决问题
    在HPC系统上进行机器学习工作负载的快速增长,需要定期进行机器学习特定基准测试以监测性能和识别问题。该论文旨在扩展Reframe框架以支持Kubernetes调度程序后端,并利用Reframe执行机器学习基准测试。
  • 关键思路
    该论文的关键思路是扩展Reframe框架以支持Kubernetes调度程序后端,并利用Reframe执行机器学习基准测试。相比当前领域的研究状况,该论文的思路有创新之处。
  • 其它亮点
    该论文的亮点包括使用Kubernetes和Slurm管理多个平台和架构上的机器学习加速器,以及使用Reframe进行机器学习基准测试。论文还讨论了集成Reframe时面临的挑战。
  • 相关研究
    最近在该领域中,还有其他与机器学习基准测试相关的研究,例如“MLPerf: A Benchmark Suite for Machine Learning Performance”和“Deep500: A Deep Learning Benchmarking Suite for High-Performance and Reproducible Research”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论