- 简介通用矩阵-向量乘法(GeMV)仍然是大型语言模型(LLM)推理中的关键延迟瓶颈,即使在使用量化低比特模型的情况下也是如此。基于DRAM的计算技术——Processing-Using-DRAM(PUD),有可能将设备上的DRAM重新用作GeMV引擎,为广泛的消费级设备提供额外的高吞吐量处理能力,而无需对DRAM进行修改。然而,在LLM推理管道中应用PUD到GeMV操作时,会在**内存内计算之前**和**之后**产生显著的开销,这削弱了其高吞吐量处理能力的优势。 本文提出了MVDRAM,这是首个利用未修改DRAM加速低比特LLM推理中GeMV操作的实用系统。通过利用GeMV操作中的数据共享模式和数学线性特性,MVDRAM协调处理器与DRAM之间的协作,消除了传统PUD方法中与输入预处理和输出位转置相关的成本。我们在四个DDR4 DRAM模块上的实验评估表明,对于低比特(低于4比特)LLM的GeMV操作,MVDRAM能够实现与基于处理器的实现相当甚至更优的推理速度。特别是,MVDRAM在低比特GeMV操作中实现了最高7.29倍的速度提升和30.5倍的能效提升。在端到端LLM推理中,对于2比特和4比特量化低比特模型,MVDRAM分别实现了2.18倍和1.31倍的吞吐量提升,以及3.04倍和2.35倍的能效提升。MVDRAM展示了标准DRAM作为LLM加速器的可行性,有潜力重新定义AI硬件的格局。
-
- 图表
- 解决问题该论文试图解决大型语言模型(LLM)推理中通用矩阵-向量乘法(GeMV)操作的高延迟问题,尤其是在低比特量化模型的情况下。尽管已有研究提出使用PUD(Processing-Using-DRAM)技术来加速GeMV,但其在输入预处理和输出后处理方面的开销显著削弱了性能提升。这是一个重要的实际问题,尤其对于希望利用现有硬件资源进行高效推理的应用场景。
- 关键思路论文提出了MVDRAM系统,通过利用GeMV操作中的数据共享模式和数学线性特性,优化处理器与DRAM之间的协作,从而避免传统PUD方法中输入重排和输出位转置的额外开销。相比现有方法,MVDRAM能够在不修改标准DRAM的情况下实现更高吞吐量和能效,为低比特LLM推理提供了一种实用且高效的解决方案。
- 其它亮点实验结果表明,MVDRAM在低比特(2-bit和4-bit)量化模型上分别实现了显著的推理速度和能效提升。此外,作者在四个DDR4 DRAM模块上进行了验证,证明了该方法的可行性和普适性。论文未提及是否开源代码,但其设计思路值得进一步研究,例如如何扩展到其他类型的矩阵运算或更复杂的神经网络结构。未来可以探索MVDRAM在不同硬件平台上的表现以及对更大规模模型的支持。
- 最近的相关研究包括:1) 基于模拟计算的PIM(Processing-in-Memory)架构,如三星的HBM-PIM;2) 针对LLM推理优化的低精度计算技术,如INT4量化;3) 其他基于DRAM的计算加速方案,如PRIME和Hybrid DRAM-CPU架构。相关论文包括《Hybrid Memory Cube: A Processing-in-Memory Architecture》和《Energy-Efficient Neural Network Inference Using Hybrid DRAM-CPU Architectures》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流