Automatic BLAS Offloading on Unified Memory Architecture: A Study on NVIDIA Grace-Hopper

简介

将代码移植到GPU通常需要大量的工作。虽然存在几种工具可以自动卸载数值库，如BLAS和LAPACK，但由于强制数据传输的高成本，它们通常被证明是不切实际的。 NVIDIA Grace-Hopper中的新统一内存架构允许从CPU和GPU访问所有内存的高带宽高速缓存一致性内存访问，潜在地消除了传统架构中面临的瓶颈。这一突破为应用程序开发和移植策略开辟了新的途径。在本研究中，我们介绍了一种新的自动BLAS卸载工具，该工具利用Grace-Hopper中高速缓存一致的NVLink C2C互连，并实现了对BLAS重型应用程序的高性能GPU卸载，无需进行代码更改或重新编译。该工具在两个量子化学或物理代码上进行了测试，观察到了很好的性能提升。
图表
解决问题

解决问题：本论文旨在介绍一种新的工具，用于自动BLAS offload，旨在解决将代码移植到GPU时遇到的数据传输瓶颈问题。
关键思路

关键思路：本论文提出的工具利用了NVIDIA Grace-Hopper中的高速缓存一致性NVLink C2C互连，实现了BLAS的自动offload，无需修改代码或重新编译。
其它亮点

其他亮点：本论文的实验使用了两个量子化学或物理代码，证明了该工具的高效性，具有重要的应用价值。此外，该工具的开发也为应用程序开发和移植策略开辟了新的途径。
相关研究

相关研究：目前还没有发现与本论文直接相关的研究，但是自动BLAS offload领域已经存在一些相关的研究，例如《Auto-BLAS: Automatic Generation of Efficient BLAS Libraries on GPUs》。

Automatic BLAS Offloading on Unified Memory Architecture: A Study on NVIDIA Grace-Hopper

评论