Automatic BLAS Offloading on Unified Memory Architecture: A Study on NVIDIA Grace-Hopper

Junjie Li ,
Yinzhi Wang ,
Xiao Liang ,
Hang Liu
2024年04月19日
  • 简介
    将代码移植到GPU通常需要大量的工作。虽然存在几种工具可以自动卸载数值库,如BLAS和LAPACK,但由于强制数据传输的高成本,它们通常被证明是不切实际的。 NVIDIA Grace-Hopper中的新统一内存架构允许从CPU和GPU访问所有内存的高带宽高速缓存一致性内存访问,潜在地消除了传统架构中面临的瓶颈。这一突破为应用程序开发和移植策略开辟了新的途径。在本研究中,我们介绍了一种新的自动BLAS卸载工具,该工具利用Grace-Hopper中高速缓存一致的NVLink C2C互连,并实现了对BLAS重型应用程序的高性能GPU卸载,无需进行代码更改或重新编译。该工具在两个量子化学或物理代码上进行了测试,观察到了很好的性能提升。
  • 图表
  • 解决问题
    解决问题:本论文旨在介绍一种新的工具,用于自动BLAS offload,旨在解决将代码移植到GPU时遇到的数据传输瓶颈问题。
  • 关键思路
    关键思路:本论文提出的工具利用了NVIDIA Grace-Hopper中的高速缓存一致性NVLink C2C互连,实现了BLAS的自动offload,无需修改代码或重新编译。
  • 其它亮点
    其他亮点:本论文的实验使用了两个量子化学或物理代码,证明了该工具的高效性,具有重要的应用价值。此外,该工具的开发也为应用程序开发和移植策略开辟了新的途径。
  • 相关研究
    相关研究:目前还没有发现与本论文直接相关的研究,但是自动BLAS offload领域已经存在一些相关的研究,例如《Auto-BLAS: Automatic Generation of Efficient BLAS Libraries on GPUs》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论