- 简介将代码移植到GPU通常需要付出巨大的努力。虽然存在一些工具可以自动卸载数值库,如BLAS和LAPACK,但由于强制数据传输的高成本,它们通常被证明是不切实际的。 NVIDIA Grace-Hopper中的新统一内存架构允许从CPU和GPU访问所有内存的高带宽缓存一致性内存访问,潜在地消除了传统架构中面临的瓶颈。这一突破为应用程序开发和移植策略开辟了新的途径。在这项研究中,我们介绍了一种新的自动BLAS卸载工具,该工具利用了Grace-Hopper中高速缓存一致的NVLink C2C互连,并使得BLAS重型应用程序能够在GPU上卸载而无需进行代码更改或重新编译。该工具在两个量子化学或物理代码上进行了测试,观察到了极大的性能优势。
- 图表
- 解决问题自动BLAS卸载的工具在GPU上的数据传输成本往往很高,本文试图通过利用NVIDIA Grace-Hopper中的统一内存架构和高速缓存一致的NVLink C2C互连来解决这个问题。
- 关键思路本文提出了一种新的自动BLAS卸载工具,利用了Grace-Hopper中的高速缓存一致的NVLink C2C互连,可以在不更改代码或重新编译的情况下实现BLAS重型应用程序的GPU卸载。
- 其它亮点本文的亮点是利用了NVIDIA Grace-Hopper的新技术,提出了一种新的解决方案,无需更改代码或重新编译即可实现GPU卸载。作者还测试了两个量子化学或物理代码,并观察到了良好的性能提升。
- 最近的相关研究主要集中在利用GPU加速科学计算方面,例如“Accelerating Quantum Chemistry Calculations on GPUs Using CUDA Fortran”和“GPU Acceleration of Quantum Chemistry Calculations with Tensor Contraction Engine”。
沙发等你来抢
去评论
评论
沙发等你来抢