- 简介机器学习(ML)操作符是设计具有各种目标应用的ML模型的构建块。通用矩阵乘法(GEMM)操作符是ML模型的支柱。它们因需要进行数十亿次乘法和累加而闻名于世,计算成本高昂。因此,人们已经付出了大量努力来研究和优化GEMM操作符,以加速ML模型的执行。通过优化GEMM操作符的执行,GPU和加速器被广泛部署以加速ML工作负载。然而,与GEMM相比,NonGEMM操作符的性能尚未得到充分研究。因此,本文介绍了一个名为\bench的基准测试,用于研究NonGEMM操作符。我们首先使用不同领域的流行ML工作负载构建\bench,然后在各种GPU平台上进行案例研究,以分析GPU加速系统中NonGEMM操作符的行为。最后,我们提出了一些关键的收获,以弥合GEMM和NonGEMM操作符之间的差距,并为社区提供潜在的新优化方向。
-
- 图表
- 解决问题研究NonGEMM算子在GPU加速系统中的行为,以填补GEMM和NonGEMM算子之间的差距,并提供新的优化方向
- 关键思路构建ench基准测试来研究NonGEMM算子,使用不同领域的流行机器学习工作负载,对各种GPU平台进行案例研究,从而分析NonGEMM算子在GPU加速系统中的行为
- 其它亮点实验设计了ench基准测试,使用了不同领域的流行机器学习工作负载,并在各种GPU平台上进行了案例研究,提供了填补GEMM和NonGEMM算子之间差距的新方向。
- 最近的相关研究包括《Optimizing GPU kernels for deep learning》、《TensorFlow: A System for Large-Scale Machine Learning》等
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流