FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification

向作者提问

NEW

简介

高度并行化的工作负载，例如机器学习训练、推理和通用高性能计算任务，使用GPU设备可以大大加速。在云计算集群中，通过多任务共享提供GPU的计算能力是高度需求的，因为任务请求总是多于可用GPU数量。现有的GPU共享解决方案侧重于在多个作业竞争单个GPU时减少任务级别的等待时间或任务级别的切换成本。不间断的计算请求具有不同的优先级，对于共享GPU设备的QoS具有非对称的影响。现有工作错过了此设置带来的内核级优化机会。为了解决这个问题，我们提出了一种新的内核级调度策略，称为FIKIT：填充内核间空闲时间。FIKIT结合了任务级优先信息、细粒度内核标识和内核测量，允许在高优先级任务的内核间空闲时间执行低优先级任务，从而充分填充GPU设备的运行时间，并将整体GPU共享对云服务的影响降至最低。在一组ML模型中，基于FIKIT的推理系统相对于GPU共享模式下的JCT，将高优先级任务加速1.33到14.87倍，超过一半的情况加速超过3.5倍。或者，在抢占式共享下，低优先级任务具有与默认GPU共享模式JCT相当的性能，比率为0.84到1倍。我们进一步将内核测量和运行时细粒度内核调度的开销限制在不到10%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

论文旨在解决GPU设备共享中的任务优先级不对称问题，提出一种新的内核级调度策略FIKIT，以填充高优先级任务之间的空闲时间，从而实现GPU设备的充分利用。
关键思路

论文提出的FIKIT方案结合任务优先级信息、细粒度的内核识别和内核测量，利用低优先级任务填充高优先级任务之间的空闲时间，从而充分利用GPU设备，减少对云服务的影响。
其它亮点

论文在一系列机器学习模型上进行了实验，结果表明，与GPU共享模式下的JCT相比，FIKIT基于推理系统将高优先级任务加速了1.33到14.87倍，超过一半的情况加速了3.5倍以上。此外，在抢占式共享下，低优先级任务的JCT与默认GPU共享模式相当，比率为0.84到1倍。论文还将内核测量和运行时细粒度内核调度的开销限制在不到10%。
相关研究

最近的相关研究包括：1. "GPU Sharing for Deep Learning Workloads: A Comprehensive Study"；2. "Efficient GPU Sharing Across Multiple Cloud Services"；3. "GPU Sharing with Preemption for Deep Learning Workloads in Cloud Data Centers"。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问