Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

简介

大型语言模型（LLMs）最近改变了自然语言处理，使得机器可以生成类似于人类的文本并进行有意义的对话。这种发展需要在LLM推理中实现速度、效率和易用性，因为这些系统的计算和内存需求呈指数级增长。与此同时，计算和内存能力的进步滞后于Moore定律的停滞。由于LLMs超出了单个GPU的容量，它们需要复杂的、专家级别的并行处理配置。内存访问比计算显著更昂贵，这对于高效扩展构成了挑战，即所谓的内存墙。在这里，计算内存（CIM）技术通过直接在内存中执行模拟计算，为加速AI推理提供了有前途的解决方案，潜在地减少延迟和功耗。通过密切集成内存和计算元素，CIM消除了冯·诺依曼瓶颈，减少了数据移动并提高了能源效率。本文综述了基于Transformer的模型，回顾了各种CIM架构，并探讨了它们如何应对现代AI计算系统的即将到来的挑战。我们讨论了与Transformer相关的运算符及其硬件加速方案，并强调了相应CIM设计中的挑战、趋势和见解。
图表
解决问题

如何解决大型语言模型推理的计算和内存需求过高的问题？
关键思路

通过在内存中直接执行模拟计算的计算-内存（CIM）技术来加速人工智能推理，消除冯·诺依曼瓶颈，减少数据移动，提高能源效率。
其它亮点

论文概述了变压器模型和各种CIM架构，并探讨了它们如何应对现代人工智能计算系统的挑战。论文还讨论了变压器相关操作符及其硬件加速方案，以及相关CIM设计的挑战、趋势和见解。
相关研究

最近的相关研究包括《GShard：用于大规模多GPU培训的通用数据并行技术》、《用于大规模分布式训练的深度学习：进展和挑战》等。

Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

评论