Improving Multi-Instance GPU Efficiency via Sub-Entry Sharing TLB Design

简介

英伟达的多实例GPU（MIG）技术可以将GPU计算能力和内存分割为独立的硬件实例，提供完全隔离，包括计算资源、缓存和内存。然而，先前的研究发现MIG不能将最后一级TLB（即L3 TLB）分割，该级别仍然在所有实例之间共享。为了增强TLB的范围，英伟达GPU重新组织了TLB结构，在每个L3 TLB条目中设置了16个子条目，这些子条目与同一1MB对齐范围内大小为64KB的16个页面的地址转换具有一对一的映射关系。我们对MIG中地址转换效率进行了全面调查，发现L3 TLB共享干扰导致两个主要问题：（i）对于共同运行的应用程序，它会导致性能下降，（ii）在清除之前，TLB子条目未被充分利用。基于这一观察结果，我们提出了STAR，通过动态共享多个基地址的TLB条目来改善TLB子条目的利用率。STAR根据其子条目利用率评估TLB条目，以优化地址转换存储，根据当前需求动态调整共享和非共享状态。我们展示了STAR在各种多租户工作负载中平均提高30.2％的整体性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决NVIDIA的Multi-Instance GPU（MIG）技术中存在的L3 TLB共享干扰问题，提高TLB子项利用率和地址转换效率。
关键思路

本文提出了一种名为STAR的动态共享TLB条目的方案，通过优化地址转换存储来提高TLB子项利用率，从而提高整体性能。
其它亮点

实验结果表明，STAR相比于其他方案平均提高了30.2%的性能。论文使用了多种多租户工作负载进行测试，但没有提供开源代码。
相关研究

最近的相关研究包括《Multi-Instance GPU: A Progress Report》和《Efficient Address Translation for Multi-Instance GPUs》等。

Improving Multi-Instance GPU Efficiency via Sub-Entry Sharing TLB Design

提问交流

提问交流