NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads

简介

机器学习（ML）操作符是设计具有各种目标应用的ML模型的构建块。通用矩阵乘法（GEMM）操作符是ML模型的支柱。它们因需要进行数十亿次乘法和累加而闻名于世，计算成本高昂。因此，人们已经付出了大量努力来研究和优化GEMM操作符，以加速ML模型的执行。通过优化GEMM操作符的执行，GPU和加速器被广泛部署以加速ML工作负载。然而，与GEMM相比，NonGEMM操作符的性能尚未得到充分研究。因此，本文介绍了一个名为\bench的基准测试，用于研究NonGEMM操作符。我们首先使用不同领域的流行ML工作负载构建\bench，然后在各种GPU平台上进行案例研究，以分析GPU加速系统中NonGEMM操作符的行为。最后，我们提出了一些关键的收获，以弥合GEMM和NonGEMM操作符之间的差距，并为社区提供潜在的新优化方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究NonGEMM算子在GPU加速系统中的行为，以填补GEMM和NonGEMM算子之间的差距，并提供新的优化方向
关键思路

构建ench基准测试来研究NonGEMM算子，使用不同领域的流行机器学习工作负载，对各种GPU平台进行案例研究，从而分析NonGEMM算子在GPU加速系统中的行为
其它亮点

实验设计了ench基准测试，使用了不同领域的流行机器学习工作负载，并在各种GPU平台上进行了案例研究，提供了填补GEMM和NonGEMM算子之间差距的新方向。
相关研究

最近的相关研究包括《Optimizing GPU kernels for deep learning》、《TensorFlow: A System for Large-Scale Machine Learning》等

NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads

提问交流

提问交流