MVDRAM: Enabling GeMV Execution in Unmodified DRAM for Low-Bit LLM Acceleration

向作者提问

NEW

简介

通用矩阵-向量乘法（GeMV）仍然是大型语言模型（LLM）推理中的关键延迟瓶颈，即使在使用量化低比特模型的情况下也是如此。基于DRAM的计算技术——Processing-Using-DRAM（PUD），有可能将设备上的DRAM重新用作GeMV引擎，为广泛的消费级设备提供额外的高吞吐量处理能力，而无需对DRAM进行修改。然而，在LLM推理管道中应用PUD到GeMV操作时，会在**内存内计算之前**和**之后**产生显著的开销，这削弱了其高吞吐量处理能力的优势。本文提出了MVDRAM，这是首个利用未修改DRAM加速低比特LLM推理中GeMV操作的实用系统。通过利用GeMV操作中的数据共享模式和数学线性特性，MVDRAM协调处理器与DRAM之间的协作，消除了传统PUD方法中与输入预处理和输出位转置相关的成本。我们在四个DDR4 DRAM模块上的实验评估表明，对于低比特（低于4比特）LLM的GeMV操作，MVDRAM能够实现与基于处理器的实现相当甚至更优的推理速度。特别是，MVDRAM在低比特GeMV操作中实现了最高7.29倍的速度提升和30.5倍的能效提升。在端到端LLM推理中，对于2比特和4比特量化低比特模型，MVDRAM分别实现了2.18倍和1.31倍的吞吐量提升，以及3.04倍和2.35倍的能效提升。MVDRAM展示了标准DRAM作为LLM加速器的可行性，有潜力重新定义AI硬件的格局。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决大型语言模型（LLM）推理中通用矩阵-向量乘法（GeMV）操作的高延迟问题，尤其是在低比特量化模型的情况下。尽管已有研究提出使用PUD（Processing-Using-DRAM）技术来加速GeMV，但其在输入预处理和输出后处理方面的开销显著削弱了性能提升。这是一个重要的实际问题，尤其对于希望利用现有硬件资源进行高效推理的应用场景。
关键思路

论文提出了MVDRAM系统，通过利用GeMV操作中的数据共享模式和数学线性特性，优化处理器与DRAM之间的协作，从而避免传统PUD方法中输入重排和输出位转置的额外开销。相比现有方法，MVDRAM能够在不修改标准DRAM的情况下实现更高吞吐量和能效，为低比特LLM推理提供了一种实用且高效的解决方案。
其它亮点

实验结果表明，MVDRAM在低比特（2-bit和4-bit）量化模型上分别实现了显著的推理速度和能效提升。此外，作者在四个DDR4 DRAM模块上进行了验证，证明了该方法的可行性和普适性。论文未提及是否开源代码，但其设计思路值得进一步研究，例如如何扩展到其他类型的矩阵运算或更复杂的神经网络结构。未来可以探索MVDRAM在不同硬件平台上的表现以及对更大规模模型的支持。
相关研究

最近的相关研究包括：1) 基于模拟计算的PIM（Processing-in-Memory）架构，如三星的HBM-PIM；2) 针对LLM推理优化的低精度计算技术，如INT4量化；3) 其他基于DRAM的计算加速方案，如PRIME和Hybrid DRAM-CPU架构。相关论文包括《Hybrid Memory Cube: A Processing-in-Memory Architecture》和《Energy-Efficient Neural Network Inference Using Hybrid DRAM-CPU Architectures》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问