Stream-K Optimization and Exploration

2024年06月01日
  • 简介
    我们探讨了Stream-K算法的优化选项,这是一种以工作为中心的矩阵乘法(GEMM)并行化方法。在我们的研究中,我们调查了理论和实际实现之间的差异,特别是注意到填充的影响。我们的调试工作揭示了一个与块映射相关的持久性错误,我们无法完全解决,但我们成功地实现了一些优化。将M、N和K维度的填充设置为零,平均提高了0.6%的性能,达到1.44毫秒,89.37 TFlops和66.91 GB/s。然而,调整块大小和参数导致进程卡住,表明需要进一步调整。此外,探索Block2Time的潜力凸显了它在增强运行时预测和优化负载平衡方面的优势。
  • 图表
  • 解决问题
    优化Stream-K算法的性能表现,解决其中的问题和bug
  • 关键思路
    通过调整padding和block size等参数来优化算法性能,同时探索Block2Time的潜力
  • 其它亮点
    实验结果显示将padding设置为0可以提高0.6%的性能表现,但调整block size和参数会导致算法陷入困境,需要进一步调整。同时,Block2Time显示出很大的优化潜力。
  • 相关研究
    没有提及其他相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论