Harnessing Integrated CPU-GPU System Memory for HPC: a first look into Grace Hopper

2024年07月10日
  • 简介
    传统上,跨离散CPU和GPU物理内存的内存管理是通过显式GPU分配和数据复制或统一虚拟内存实现的。Grace Hopper超级芯片首次支持集成的CPU-GPU系统页表、系统分配内存的硬件级寻址和缓存一致的NVLink-C2C互连,为启用统一内存系统带来了另一种解决方案。在本文中,我们首次深入研究了Grace Hopper超级芯片在内存和内存超额订阅场景下的系统内存管理。我们提供了一套六个代表性应用程序,包括使用系统内存和管理内存的Qiskit量子计算模拟器。使用我们的内存利用率分析器和硬件计数器,我们量化和表征了集成CPU-GPU系统页表对GPU应用程序的影响。我们的研究重点关注首次触摸策略、页表项初始化、页大小和页面迁移。我们确定了不同访问模式的实用优化策略。我们的结果表明,作为统一内存的一种新解决方案,系统分配内存可以在最小的移植工作量下使大多数用例受益。
  • 图表
  • 解决问题
    研究Grace Hopper Superchip上的系统内存管理,特别是在内存过度订阅和内存中场景下的表现
  • 关键思路
    Grace Hopper Superchip支持CPU-GPU系统页表,硬件级别的系统分配内存寻址,以及缓存一致的NVLink-C2C互连,提供了一种新的统一内存解决方案
  • 其它亮点
    论文提供了六个代表性应用程序的研究,并使用内存利用率分析器和硬件计数器量化和表征了集成CPU-GPU系统页表对GPU应用程序的影响。研究聚焦于首次触摸策略、页表条目初始化、页大小和页面迁移,并确定了不同访问模式的实用优化策略。结果表明,作为统一内存的新解决方案,系统分配的内存可以在最小的移植工作量下受益于大多数用例
  • 相关研究
    在这个领域中,最近的相关研究包括:NVIDIA的统一内存技术、AMD的APU、Intel的CPU-GPU一体化解决方案等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论