PAL: A Variability-Aware Policy for Scheduling ML Workloads in GPU Clusters

2024年08月21日
  • 简介
    大规模计算系统越来越多地使用加速器(如GPU)来实现peta和exa级别的计算,以满足机器学习(ML)和科学计算应用的需求。鉴于ML的广泛和不断增长的使用,包括在一些科学应用中,为ML工作负载优化这些集群尤为重要。然而,最近的研究表明,这些集群中的加速器可能会遭受性能变化的影响,这种变化可能会导致资源未充分利用和负载不平衡。在这项工作中,我们重点研究了如何使集群调度器(用于在许多并发的ML作业之间共享加速器丰富的集群)接受性能变化以减轻其影响。我们解决这一挑战的关键洞察是表征哪些应用程序更可能遭受性能变化,并在将作业放置在集群上时考虑这一点。我们设计了一种新颖的集群调度器PAL,它使用性能变化测量和应用程序特定的配置文件来提高作业性能和资源利用率。PAL还将性能变化与局部性平衡,以确保作业尽可能分布在尽可能少的节点上。总的来说,PAL显著改善了GPU丰富的集群调度:跨越图像、语言和视觉模型等六个ML工作负载应用程序的跟踪,PAL将作业完成时间的几何平均值提高了42%,集群利用率提高了28%,并且makespan比现有最先进的调度器提高了47%。
  • 图表
  • 解决问题
    如何优化GPU集群调度器以应对性能变异性的影响,提高资源利用率和作业完成时间?
  • 关键思路
    利用性能变异性测量和应用程序特定的配置文件,设计一种新的集群调度器PAL,以提高作业性能和资源利用率,并平衡性能变异性和本地性。
  • 其它亮点
    PAL显著改善了GPU集群调度:在覆盖图像、语言和视觉模型的六个ML工作负载应用程序的跟踪中,相对于现有最先进的调度器,PAL提高了几何平均作业完成时间42%,集群利用率28%,并使完成时间缩短了47%。
  • 相关研究
    最近的相关研究包括:1. 'Improving GPU Resource Utilization in Large-Scale Data Centers';2. 'Scheduling for Performance Variability on Heterogeneous Clusters';3. 'Mitigating Performance Variability in Distributed GPU Systems'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论