Data-driven Forecasting of Deep Learning Performance on GPUs

2024年07月18日
  • 简介
    深度学习内核表现出可预测的内存访问和计算模式,使得GPU的并行架构非常适合执行它们。GPU的软件和运行时系统被优化以更好地利用流式多处理器、芯片缓存和离线高带宽内存。随着深度学习模型和GPU的不断发展,访问更新的GPU通常是有限的,这引发了有关现有GPU上新模型架构的性能、新GPU上现有模型的性能以及新GPU上新模型架构的性能的问题。为了解决这些问题,我们介绍了NeuSight,这是一个框架,可以在不需要实际执行的情况下,预测各种深度学习模型在未见过的GPU上的性能,包括训练和推断。该框架利用GPU硬件行为和软件库优化来估计端到端性能。以前的工作使用捕捉线性趋势的回归模型或多层感知机来预测GPU上深度学习内核的总延迟。这些方法在预测未见模型和新GPU的性能时,误差百分比较高。相反,NeuSight将预测问题分解为更小的问题,并通过基本性能定律来限制预测。NeuSight将单个深度学习内核预测分解为称为“瓦片”的较小工作集,这些工作集在GPU上独立执行。瓦片粒度的预测是通过机器学习方法确定的,并聚合以估计端到端延迟。NeuSight在各种深度学习工作负载和最新的GPU上优于以前的工作。与最先进的先前工作相比,其中GPT3和H100都没有用于训练框架,它将GPT3模型在H100上进行训练和推断的延迟百分比误差从198%和19.7%降低到3.8%。
  • 图表
  • 解决问题
    NeuSight试图解决在新GPU上预测各种深度学习模型的性能问题,而无需实际执行。
  • 关键思路
    NeuSight将预测问题分解为较小的问题,通过基本性能定律来限定预测。使用机器学习方法确定tile粒度的预测,并聚合以估计端到端延迟。
  • 其它亮点
    NeuSight在各种深度学习工作负载和最新的GPU上优于先前的工作。它将GPT3模型的训练和推理的延迟预测误差从198%和19.7%降至3.8%。该论文提出的方法有助于优化GPU的使用,提高深度学习模型的性能。
  • 相关研究
    先前的工作使用回归模型或多层感知器来预测GPU上深度学习内核的总体延迟,但这些方法在预测未见模型和新GPU的性能时误差较高。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论