Missile: Fine-Grained, Hardware-Level GPU Resource Isolation for Multi-Tenant DNN Inference

2024年07月19日
  • 简介
    本文介绍了一种名为Missile的通用GPU共享解决方案,用于多租户DNN推理。将高优先级、延迟敏感(LS)和低优先级、尽力而为(BE)的DNN推理服务放置在一起,可以降低GPU集群的总拥有成本(TCO)。由于VRAM通道冲突和PCIe总线争用等瓶颈的限制,现有的GPU共享解决方案无法避免并发执行任务之间的资源冲突,无法同时实现LS任务的低延迟和BE任务的高吞吐量。为了弥补这一差距,本文提出了Missile,一种通用的GPU共享解决方案,用于NVIDIA GPU上的多租户DNN推理。Missile在软件级别上近似于多个LS和BE DNN任务之间的细粒度GPU硬件资源隔离。通过全面的逆向工程,Missile首先揭示了NVIDIA GPU的通用VRAM通道哈希映射架构,并使用软件级别的缓存着色消除了VRAM通道冲突。它还隔离了PCIe总线,并使用完全公平调度程序公平地分配PCIe带宽。我们在四个GPU上评估了12个主流DNN,使用合成和真实世界的工作负载。结果表明,与最先进的GPU共享解决方案相比,Missile将LS服务的尾延迟降低了约50%,实现了高达6.1倍的BE作业吞吐量,并按需分配PCIe总线带宽以实现最佳性能。
  • 作者讲解
  • 图表
  • 解决问题
    Missile试图解决GPU共享中高优先级和低优先级任务之间的资源冲突问题,以实现低延迟和高吞吐量。
  • 关键思路
    Missile通过软件级别的方法来近似实现GPU硬件资源的细粒度隔离,包括使用软件级别的缓存着色来消除VRAM通道冲突,以及使用完全公平调度器来隔离PCIe总线和公平分配带宽。
  • 其它亮点
    论文使用12个主流的DNN进行了实验,结果显示相比现有的GPU共享解决方案,Missile能够将LS服务的尾延迟降低高达50%,实现高达6.1倍的BE作业吞吐量,并根据需要为租户分配PCIe总线带宽以实现最佳性能。
  • 相关研究
    最近的相关研究包括《Towards Efficient GPU Sharing in Deep Learning Workloads: A Hierarchical Multi-tenant GPU Architecture》和《Multi-Tenant GPU for Deep Learning Workloads: Analysis, Implications and Improvement》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问