Balanced Data Placement for GEMV Acceleration with Processing-In-Memory

2024年03月29日
  • 简介
    由于对生成式人工智能(GenAI)推理的需求空前,加速支配GenAI的基本原语,如通用矩阵-向量乘法(GEMV),正在受到越来越多的关注。 GEMV的挑战在于这个原语需要高内存带宽。多个内存供应商已经提出了商业可行的内存中处理(PIM)原型,通过增加计算能力的内存银行并向所有银行广播相同的命令,实现了对处理器的带宽增强。虽然提出的PIM设计有望加速GEMV,但我们在这项工作中观察到,真正利用PIM加速的一个关键障碍是确定将矩阵放置在内存银行中的最佳数据位置。为此,我们提取出影响数据放置的几个因素,并提出了PIMnast方法,类似于体操运动员,平衡这些因素,以确定能够提供GEMV加速的数据放置。在一系列GenAI模型中,我们提出的PIMnast方法以及我们确定的附加编排旋钮,为GEMV提供了高达6.86倍的加速(可用的7倍屋顶线速度提升),从而导致每个标记延迟高达5倍的加速。
  • 图表
  • 解决问题
    论文旨在解决GEMV高内存带宽需求的问题,通过提出PIMnast方法来优化数据放置,以实现PIM加速。
  • 关键思路
    PIMnast方法通过平衡多个因素,确定最优的数据放置方式,从而实现GEMV加速,进而提高GenAI模型的性能。
  • 其它亮点
    论文通过实验证明,PIMnast方法可以实现高达6.86倍的GEMV加速,从而使得每个token的延迟提高了5倍。此外,论文还提出了一些编排参数,可以进一步提高性能。
  • 相关研究
    近期的相关研究包括:1. Processing-in-memory:Challenges and future prospects;2. A survey of processing-in-memory architectures。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论