- 简介BLAS Level 3 操作对于科学计算至关重要,但是在现代多核系统上找到最佳线程数是具有挑战性的。我们提出了一种 Architecture and Data-Structure Aware Linear Algebra (ADSALA) 库的扩展,该库使用机器学习来优化所有 BLAS Level 3 操作的运行时。我们的方法根据矩阵维度和系统架构预测每个操作的最佳线程数。我们在两个具有 Intel 和 AMD 处理器的 HPC 平台上使用 MKL 和 BLIS 作为基准 BLAS 实现来测试我们的方法。与使用最大线程数相比,我们在所有操作中实现了 1.5 到 3.0 倍的加速。我们还分析了不同 BLAS 操作的运行时模式并解释了加速的来源。我们的工作展示了 ADSALA 方法在优化现代多核系统上的 BLAS 例程方面的有效性和普适性。
-
- 图表
- 解决问题论文试图通过机器学习优化BLAS Level 3操作的运行时,解决在现代多核系统上找到最佳线程数的挑战。
- 关键思路论文提出了一种扩展ADSALA库的方法,该方法基于矩阵维度和系统架构,使用机器学习预测每个操作的最佳线程数,从而优化BLAS Level 3操作的运行时。
- 其它亮点论文在两个HPC平台上测试了该方法,使用MKL和BLIS作为基线BLAS实现,相比使用最大线程数,所有操作都实现了1.5到3.0倍的加速。论文还分析了不同BLAS操作的运行时模式,并解释了加速的来源。
- 最近在这个领域中,还有一些相关研究,例如“Towards Optimal Performance of BLAS on Intel Knights Landing Processors”和“Performance Analysis and Optimization of BLAS on Intel Xeon Phi Coprocessors”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流