Automatic BLAS Offloading on Unified Memory Architecture: A Study on NVIDIA Grace-Hopper

简介

将代码移植到GPU通常需要付出巨大的努力。虽然存在一些工具可以自动卸载数值库，如BLAS和LAPACK，但由于强制数据传输的高成本，它们通常被证明是不切实际的。 NVIDIA Grace-Hopper中的新统一内存架构允许从CPU和GPU访问所有内存的高带宽缓存一致性内存访问，潜在地消除了传统架构中面临的瓶颈。这一突破为应用程序开发和移植策略开辟了新的途径。在这项研究中，我们介绍了一种新的自动BLAS卸载工具，该工具利用了Grace-Hopper中高速缓存一致的NVLink C2C互连，并使得BLAS重型应用程序能够在GPU上卸载而无需进行代码更改或重新编译。该工具在两个量子化学或物理代码上进行了测试，观察到了极大的性能优势。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

自动BLAS卸载的工具在GPU上的数据传输成本往往很高，本文试图通过利用NVIDIA Grace-Hopper中的统一内存架构和高速缓存一致的NVLink C2C互连来解决这个问题。
关键思路

本文提出了一种新的自动BLAS卸载工具，利用了Grace-Hopper中的高速缓存一致的NVLink C2C互连，可以在不更改代码或重新编译的情况下实现BLAS重型应用程序的GPU卸载。
其它亮点

本文的亮点是利用了NVIDIA Grace-Hopper的新技术，提出了一种新的解决方案，无需更改代码或重新编译即可实现GPU卸载。作者还测试了两个量子化学或物理代码，并观察到了良好的性能提升。
相关研究

最近的相关研究主要集中在利用GPU加速科学计算方面，例如“Accelerating Quantum Chemistry Calculations on GPUs Using CUDA Fortran”和“GPU Acceleration of Quantum Chemistry Calculations with Tensor Contraction Engine”。

Automatic BLAS Offloading on Unified Memory Architecture: A Study on NVIDIA Grace-Hopper

提问交流

提问交流