- 简介高度并行化的工作负载,例如机器学习训练、推理和通用高性能计算任务,使用GPU设备可以大大加速。在云计算集群中,通过多任务共享提供GPU的计算能力是高度需求的,因为任务请求总是多于可用GPU数量。现有的GPU共享解决方案侧重于在多个作业竞争单个GPU时减少任务级别的等待时间或任务级别的切换成本。不间断的计算请求具有不同的优先级,对于共享GPU设备的QoS具有非对称的影响。现有工作错过了此设置带来的内核级优化机会。为了解决这个问题,我们提出了一种新的内核级调度策略,称为FIKIT:填充内核间空闲时间。FIKIT结合了任务级优先信息、细粒度内核标识和内核测量,允许在高优先级任务的内核间空闲时间执行低优先级任务,从而充分填充GPU设备的运行时间,并将整体GPU共享对云服务的影响降至最低。在一组ML模型中,基于FIKIT的推理系统相对于GPU共享模式下的JCT,将高优先级任务加速1.33到14.87倍,超过一半的情况加速超过3.5倍。或者,在抢占式共享下,低优先级任务具有与默认GPU共享模式JCT相当的性能,比率为0.84到1倍。我们进一步将内核测量和运行时细粒度内核调度的开销限制在不到10%。
-
- 解决问题论文旨在解决GPU设备共享中的任务优先级不对称问题,提出一种新的内核级调度策略FIKIT,以填充高优先级任务之间的空闲时间,从而实现GPU设备的充分利用。
- 关键思路论文提出的FIKIT方案结合任务优先级信息、细粒度的内核识别和内核测量,利用低优先级任务填充高优先级任务之间的空闲时间,从而充分利用GPU设备,减少对云服务的影响。
- 其它亮点论文在一系列机器学习模型上进行了实验,结果表明,与GPU共享模式下的JCT相比,FIKIT基于推理系统将高优先级任务加速了1.33到14.87倍,超过一半的情况加速了3.5倍以上。此外,在抢占式共享下,低优先级任务的JCT与默认GPU共享模式相当,比率为0.84到1倍。论文还将内核测量和运行时细粒度内核调度的开销限制在不到10%。
- 最近的相关研究包括:1. "GPU Sharing for Deep Learning Workloads: A Comprehensive Study";2. "Efficient GPU Sharing Across Multiple Cloud Services";3. "GPU Sharing with Preemption for Deep Learning Workloads in Cloud Data Centers"。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流