GROMACS on AMD GPU-Based HPC Platforms: Using SYCL for Performance and Portability

2024年05月02日
  • 简介
    GROMACS是一款广泛使用的分子动力学软件包,其重点是跨广泛平台的性能、可移植性和可维护性。由于其早期算法重构和灵活的异构并行化,GROMACS已经成功地利用GPU加速器超过十年。随着HPC加速器平台的多样化和没有明显的选择多供应商编程模型,GROMACS项目发现自己处于一个十字路口。性能和可移植性要求以及对基于标准的解决方案的强烈偏好,促使我们选择在AMD和英特尔的新HPC GPU平台上使用SYCL。自GROMACS 2022发布以来,SYCL后端已成为准备面向像LUMI和Frontier这样的exascale HPC架构的AMD GPU的主要手段。SYCL是一种基于C++17的硬件加速器编程标准,可跨平台、免费使用,允许使用相同的代码以最小的特殊化来针对所有三个主要供应商的GPU。虽然SYCL实现建立在本地工具链上,但这种方法的性能并不立即明显。生物分子模拟具有挑战性的性能特征:延迟敏感性、需要强大的扩展性和典型迭代时间短至数百微秒。因此,在各种问题规模和扩展方案中获得良好的性能尤其具有挑战性。在这里,我们分享了我们为使用SYCL准备AMD GPU平台的GROMACS的工作结果,并展示了在搭载MI250X加速器的Cray EX235a机器上的性能。我们的研究结果表明,在不牺牲主要性能的情况下,可实现可移植性。我们提供了一个节点级内核和运行时性能的详细分析,旨在与HPC社区分享使用SYCL作为性能可移植GPU框架的最佳实践。
  • 图表
  • 解决问题
    将GROMACS软件在AMD和Intel GPU平台上进行性能和可移植性的优化,以应对高性能计算的需求。
  • 关键思路
    使用SYCL作为跨平台、免费、基于C++17的标准,实现代码在多个GPU供应商上的最小特化,并在Crat EX235a机器上的MI250X加速器上展示了性能。
  • 其它亮点
    论文提供了关于使用SYCL作为性能可移植GPU框架的最佳实践,包括节点级内核和运行时性能的详细分析。此外,论文还表明,即使在具有挑战性的生物分子模拟中,也可以实现可移植性而不会牺牲性能。
  • 相关研究
    该论文没有提到其他相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论