【标题】Large-scale Machine Learning Cluster Scheduling via Multi-agent Graph Reinforcement Learning
【作者团队】Xiaoyang Zhao, Chuan Wu
【发表日期】2021.12.26
【论文链接】https://arxiv.org/pdf/2112.13354.pdf
【推荐理由】大型GPU集群中分布式深度学习(DL)作业的高效调度对于资源效率和作业性能至关重要。由于资源争用,位于同一位置的DL作业之间会发生干扰。现有研究采用基于显式干扰建模的白盒方法和基于强化学习的黑盒调度算法,研究了干扰感知的工作安排问题。由于工作负载规模庞大,运行单个调度程序来及时有效地管理所有到达作业具有挑战性。本文在大规模集群/数据中心中采用了多个调度器,并提出了多代理强化学习(MARL)调度框架,以协作学习细粒度作业布局策略,以最小化作业完成时间(JCT)为目标。为了实现拓扑感知布局,本文提出的框架使用分层图神经网络对数据中心拓扑和服务器架构进行编码。鉴于普遍缺乏与不同安置对应的精确奖励样本,并设计了工作干扰模型,用于预测不同位置的干扰水平,用于训练MARL调度器。测试平台和跟踪驱动的评估表明,该调度框架在平均JCT方面优于代表性调度方案20%以上,并且适用于各种机器学习集群拓扑。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢