Missile: Fine-Grained, Hardware-Level GPU Resource Isolation for Multi-Tenant DNN Inference

简介

本文介绍了一种名为Missile的通用GPU共享解决方案，用于多租户DNN推理。将高优先级、延迟敏感（LS）和低优先级、尽力而为（BE）的DNN推理服务放置在一起，可以降低GPU集群的总拥有成本（TCO）。由于VRAM通道冲突和PCIe总线争用等瓶颈的限制，现有的GPU共享解决方案无法避免并发执行任务之间的资源冲突，无法同时实现LS任务的低延迟和BE任务的高吞吐量。为了弥补这一差距，本文提出了Missile，一种通用的GPU共享解决方案，用于NVIDIA GPU上的多租户DNN推理。Missile在软件级别上近似于多个LS和BE DNN任务之间的细粒度GPU硬件资源隔离。通过全面的逆向工程，Missile首先揭示了NVIDIA GPU的通用VRAM通道哈希映射架构，并使用软件级别的缓存着色消除了VRAM通道冲突。它还隔离了PCIe总线，并使用完全公平调度程序公平地分配PCIe带宽。我们在四个GPU上评估了12个主流DNN，使用合成和真实世界的工作负载。结果表明，与最先进的GPU共享解决方案相比，Missile将LS服务的尾延迟降低了约50％，实现了高达6.1倍的BE作业吞吐量，并按需分配PCIe总线带宽以实现最佳性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Missile试图解决GPU共享中高优先级和低优先级任务之间的资源冲突问题，以实现低延迟和高吞吐量。
关键思路

Missile通过软件级别的方法来近似实现GPU硬件资源的细粒度隔离，包括使用软件级别的缓存着色来消除VRAM通道冲突，以及使用完全公平调度器来隔离PCIe总线和公平分配带宽。
其它亮点

论文使用12个主流的DNN进行了实验，结果显示相比现有的GPU共享解决方案，Missile能够将LS服务的尾延迟降低高达50％，实现高达6.1倍的BE作业吞吐量，并根据需要为租户分配PCIe总线带宽以实现最佳性能。
相关研究

最近的相关研究包括《Towards Efficient GPU Sharing in Deep Learning Workloads: A Hierarchical Multi-tenant GPU Architecture》和《Multi-Tenant GPU for Deep Learning Workloads: Analysis, Implications and Improvement》等。

Missile: Fine-Grained, Hardware-Level GPU Resource Isolation for Multi-Tenant DNN Inference

提问交流

提问交流