- 简介机器学习(ML)大规模数据集的训练是一个非常昂贵和耗时的工作负载。用于现代ML训练工作负载的处理器中心架构(例如CPU、GPU)受到数据移动瓶颈的限制,即由于重复访问训练数据集。因此,处理器中心系统会遭受性能下降和高能耗的问题。处理器内存(PIM)是一种有前途的解决方案,通过将计算机制放置在内存内部或附近来减轻数据移动瓶颈。 我们的目标是了解流行的分布式优化算法在实际PIM架构上的能力和特性,以加速数据密集型ML训练工作负载。为此,我们1)在UPMEM的实际通用PIM系统上实现了几种代表性的集中式分布式优化算法,2)在性能、准确性和可扩展性方面对这些算法进行了严格评估,3)与传统的CPU和GPU基线进行了比较,4)讨论了未来PIM硬件的影响和需要转向算法硬件代码设计视角以适应分散的分布式优化算法。 我们的结果展示了三个主要发现:1)当操作和数据类型被PIM硬件原生支持时,现代通用PIM架构可以成为许多内存绑定ML训练工作负载的一种可行替代方案,2)精心选择最适合PIM的优化算法的重要性,以及3)与流行观点相反,许多数据密集型ML训练工作负载的当代PIM架构不会与节点数量近似线性扩展。为了促进未来的研究,我们的目标是开源我们的完整代码库。
- 图表
- 解决问题研究Processing-In-Memory(PIM)对于大规模数据集的机器学习训练工作负载的加速能力和特征,以及分布式优化算法在PIM架构上的表现。
- 关键思路在UPMEM的通用PIM系统上实现几种代表性的集中式分布式优化算法,通过性能、准确性和可扩展性等方面的严格评估,与常规CPU和GPU基线进行比较,并讨论未来PIM硬件的影响和需要转向算法-硬件协同设计的需求。
- 其它亮点实验结果表明:1)当操作和数据类型被PIM硬件原生支持时,现代通用PIM架构可以成为许多内存限制的机器学习训练工作负载的可行替代方案,2)选择最适合PIM的优化算法非常重要,3)与普遍观点相反,对于许多数据密集型机器学习训练工作负载,当节点数量增加时,当代PIM架构并不具有近似线性的扩展性能力。
- 最近的相关研究包括:1)在PIM架构上优化神经网络模型的研究,2)利用PIM架构加速机器学习推理的研究,3)使用PIM架构优化图像处理应用程序的研究等。
沙发等你来抢
去评论
评论
沙发等你来抢