How to Rent GPUs on a Budget

简介

过去十年中，机器学习（ML）的爆炸式增长导致对GPU进行训练ML模型的需求急剧增加。由于对于大多数用户来说，构建和维护大型GPU集群的成本过高，因此大型云服务提供商（Microsoft Azure，Amazon AWS，Google Cloud）看到了租用基于云的GPU的需求爆发增长。在这种云计算范式下，用户必须在每个时刻指定他们对GPU的需求，并支付他们使用的每个GPU小时费用。众所周知，ML训练作业可以以不同程度进行并行化。在一系列ML训练工作流中，用户通常希望最小化所有作业的平均响应时间。这里，作业的响应时间指从作业到达到完成所需的时间。此外，用户受某些操作预算的限制。具体而言，在本文中，用户被限制每小时使用不超过$b$个GPU，长期运行时间的平均值。问题是如何在满足预算约束的情况下最小化平均响应时间。由于训练作业从额外GPU运行中获得递减边际效益，将过多的GPU分配给单个训练作业可能会大大增加用户支付的总成本。因此，最优租赁策略必须在训练成本和平均响应时间之间取得平衡。本文导出了一系列训练工作流的最优租赁策略，其中工作流具有不同的并行化级别（由加速函数指定）和不同的作业大小（固有工作量）。我们对到达过程和作业大小分布几乎没有任何假设。我们的最优策略指定了每个时刻租用多少个GPU以及如何分配这些GPU。
图表
解决问题

在云计算环境下，针对不同并行程度和工作量的机器学习训练任务，如何在满足每小时GPU数量预算限制的情况下，最小化平均响应时间？
关键思路

论文提出了一种针对不同并行程度和工作量的机器学习训练任务的最优租赁策略，以最小化平均响应时间，同时满足每小时GPU数量预算限制。
其它亮点

论文几乎不对到达过程和作业大小分布做任何假设，实验结果表明，所提出的最优租赁策略可以显著降低成本，并在保持满足GPU数量预算限制的同时，最小化平均响应时间。
相关研究

近期的相关研究包括：《Efficient Resource Provisioning for Deep Learning Workloads in Public Cloud》、《DeepRM: A Deep Reinforcement Learning Framework for Resource Management in Cloud》等。

评论