Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems

2024 International Parallel and Distributed Processing Symposium (IPDPS)
2024年06月28日
  • 简介
    BLAS Level 3 操作对于科学计算至关重要,但是在现代多核系统上找到最佳线程数是具有挑战性的。我们提出了一种 Architecture and Data-Structure Aware Linear Algebra (ADSALA) 库的扩展,该库使用机器学习来优化所有 BLAS Level 3 操作的运行时。我们的方法根据矩阵维度和系统架构预测每个操作的最佳线程数。我们在两个具有 Intel 和 AMD 处理器的 HPC 平台上使用 MKL 和 BLIS 作为基准 BLAS 实现来测试我们的方法。与使用最大线程数相比,我们在所有操作中实现了 1.5 到 3.0 倍的加速。我们还分析了不同 BLAS 操作的运行时模式并解释了加速的来源。我们的工作展示了 ADSALA 方法在优化现代多核系统上的 BLAS 例程方面的有效性和普适性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图通过机器学习优化BLAS Level 3操作的运行时,解决在现代多核系统上找到最佳线程数的挑战。
  • 关键思路
    论文提出了一种扩展ADSALA库的方法,该方法基于矩阵维度和系统架构,使用机器学习预测每个操作的最佳线程数,从而优化BLAS Level 3操作的运行时。
  • 其它亮点
    论文在两个HPC平台上测试了该方法,使用MKL和BLIS作为基线BLAS实现,相比使用最大线程数,所有操作都实现了1.5到3.0倍的加速。论文还分析了不同BLAS操作的运行时模式,并解释了加速的来源。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如“Towards Optimal Performance of BLAS on Intel Knights Landing Processors”和“Performance Analysis and Optimization of BLAS on Intel Xeon Phi Coprocessors”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问