- 简介将代码移植到GPU通常需要大量的工作。虽然存在几种工具可以自动卸载数值库,如BLAS和LAPACK,但由于强制数据传输的高成本,它们通常被证明是不切实际的。 NVIDIA Grace-Hopper中的新统一内存架构允许从CPU和GPU访问所有内存的高带宽高速缓存一致性内存访问,潜在地消除了传统架构中面临的瓶颈。这一突破为应用程序开发和移植策略开辟了新的途径。在本研究中,我们介绍了一种新的自动BLAS卸载工具,该工具利用Grace-Hopper中高速缓存一致的NVLink C2C互连,并实现了对BLAS重型应用程序的高性能GPU卸载,无需进行代码更改或重新编译。该工具在两个量子化学或物理代码上进行了测试,观察到了很好的性能提升。
- 图表
- 解决问题解决问题:本论文旨在介绍一种新的工具,用于自动BLAS offload,旨在解决将代码移植到GPU时遇到的数据传输瓶颈问题。
- 关键思路关键思路:本论文提出的工具利用了NVIDIA Grace-Hopper中的高速缓存一致性NVLink C2C互连,实现了BLAS的自动offload,无需修改代码或重新编译。
- 其它亮点其他亮点:本论文的实验使用了两个量子化学或物理代码,证明了该工具的高效性,具有重要的应用价值。此外,该工具的开发也为应用程序开发和移植策略开辟了新的途径。
- 相关研究:目前还没有发现与本论文直接相关的研究,但是自动BLAS offload领域已经存在一些相关的研究,例如《Auto-BLAS: Automatic Generation of Efficient BLAS Libraries on GPUs》。
沙发等你来抢
去评论
评论
沙发等你来抢