Harnessing Integrated CPU-GPU System Memory for HPC: a first look into Grace Hopper

简介

传统上，跨离散CPU和GPU物理内存的内存管理是通过显式GPU分配和数据复制或统一虚拟内存实现的。Grace Hopper超级芯片首次支持集成的CPU-GPU系统页表、系统分配内存的硬件级寻址和缓存一致的NVLink-C2C互连，为启用统一内存系统带来了另一种解决方案。在本文中，我们首次深入研究了Grace Hopper超级芯片在内存和内存超额订阅场景下的系统内存管理。我们提供了一套六个代表性应用程序，包括使用系统内存和管理内存的Qiskit量子计算模拟器。使用我们的内存利用率分析器和硬件计数器，我们量化和表征了集成CPU-GPU系统页表对GPU应用程序的影响。我们的研究重点关注首次触摸策略、页表项初始化、页大小和页面迁移。我们确定了不同访问模式的实用优化策略。我们的结果表明，作为统一内存的一种新解决方案，系统分配内存可以在最小的移植工作量下使大多数用例受益。
图表
解决问题

研究Grace Hopper Superchip上的系统内存管理，特别是在内存过度订阅和内存中场景下的表现
关键思路

Grace Hopper Superchip支持CPU-GPU系统页表，硬件级别的系统分配内存寻址，以及缓存一致的NVLink-C2C互连，提供了一种新的统一内存解决方案
其它亮点

论文提供了六个代表性应用程序的研究，并使用内存利用率分析器和硬件计数器量化和表征了集成CPU-GPU系统页表对GPU应用程序的影响。研究聚焦于首次触摸策略、页表条目初始化、页大小和页面迁移，并确定了不同访问模式的实用优化策略。结果表明，作为统一内存的新解决方案，系统分配的内存可以在最小的移植工作量下受益于大多数用例
相关研究

在这个领域中，最近的相关研究包括：NVIDIA的统一内存技术、AMD的APU、Intel的CPU-GPU一体化解决方案等

Harnessing Integrated CPU-GPU System Memory for HPC: a first look into Grace Hopper

评论