- 简介英伟达的多实例GPU(MIG)技术可以将GPU计算能力和内存分割为独立的硬件实例,提供完全隔离,包括计算资源、缓存和内存。然而,先前的研究发现MIG不能将最后一级TLB(即L3 TLB)分割,该级别仍然在所有实例之间共享。为了增强TLB的范围,英伟达GPU重新组织了TLB结构,在每个L3 TLB条目中设置了16个子条目,这些子条目与同一1MB对齐范围内大小为64KB的16个页面的地址转换具有一对一的映射关系。我们对MIG中地址转换效率进行了全面调查,发现L3 TLB共享干扰导致两个主要问题:(i)对于共同运行的应用程序,它会导致性能下降,(ii)在清除之前,TLB子条目未被充分利用。基于这一观察结果,我们提出了STAR,通过动态共享多个基地址的TLB条目来改善TLB子条目的利用率。STAR根据其子条目利用率评估TLB条目,以优化地址转换存储,根据当前需求动态调整共享和非共享状态。我们展示了STAR在各种多租户工作负载中平均提高30.2%的整体性能。
-
- 图表
- 解决问题本文旨在解决NVIDIA的Multi-Instance GPU(MIG)技术中存在的L3 TLB共享干扰问题,提高TLB子项利用率和地址转换效率。
- 关键思路本文提出了一种名为STAR的动态共享TLB条目的方案,通过优化地址转换存储来提高TLB子项利用率,从而提高整体性能。
- 其它亮点实验结果表明,STAR相比于其他方案平均提高了30.2%的性能。论文使用了多种多租户工作负载进行测试,但没有提供开源代码。
- 最近的相关研究包括《Multi-Instance GPU: A Progress Report》和《Efficient Address Translation for Multi-Instance GPUs》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流