Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems

简介

BLAS Level 3 操作对于科学计算至关重要，但是在现代多核系统上找到最佳线程数是具有挑战性的。我们提出了一种 Architecture and Data-Structure Aware Linear Algebra (ADSALA) 库的扩展，该库使用机器学习来优化所有 BLAS Level 3 操作的运行时。我们的方法根据矩阵维度和系统架构预测每个操作的最佳线程数。我们在两个具有 Intel 和 AMD 处理器的 HPC 平台上使用 MKL 和 BLIS 作为基准 BLAS 实现来测试我们的方法。与使用最大线程数相比，我们在所有操作中实现了 1.5 到 3.0 倍的加速。我们还分析了不同 BLAS 操作的运行时模式并解释了加速的来源。我们的工作展示了 ADSALA 方法在优化现代多核系统上的 BLAS 例程方面的有效性和普适性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过机器学习优化BLAS Level 3操作的运行时，解决在现代多核系统上找到最佳线程数的挑战。
关键思路

论文提出了一种扩展ADSALA库的方法，该方法基于矩阵维度和系统架构，使用机器学习预测每个操作的最佳线程数，从而优化BLAS Level 3操作的运行时。
其它亮点

论文在两个HPC平台上测试了该方法，使用MKL和BLIS作为基线BLAS实现，相比使用最大线程数，所有操作都实现了1.5到3.0倍的加速。论文还分析了不同BLAS操作的运行时模式，并解释了加速的来源。
相关研究

最近在这个领域中，还有一些相关研究，例如“Towards Optimal Performance of BLAS on Intel Knights Landing Processors”和“Performance Analysis and Optimization of BLAS on Intel Xeon Phi Coprocessors”。

Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems

提问交流

提问交流