AI and Memory Wall

简介

当前，无与伦比的无监督训练数据的可用性以及神经网络扩展定律已经导致了模型大小和计算需求的前所未有的增长，用于服务/训练LLM。然而，主要的性能瓶颈越来越多地转向内存带宽。在过去的20年中，服务器硬件FLOPS的峰值每2年增长3.0倍，超过了DRAM和互连带宽的增长速度，它们分别每2年只增长1.6和1.4倍。这种差异使得内存而不是计算成为AI应用中的主要瓶颈，特别是在服务方面。在这里，我们分析了编码器和解码器Transformer模型，并展示了内存带宽如何成为解码器模型的主要瓶颈。我们主张重新设计模型架构、训练和部署策略以克服这种内存限制。
图表
解决问题

解决内存带宽成为人工智能应用中的主要瓶颈问题
关键思路

通过重新设计模型架构、训练和部署策略来克服内存限制
其它亮点

分析了编码器和解码器Transformer模型，并展示了内存带宽如何成为解码器模型的主要瓶颈。提出了解决内存限制的解决方案。
相关研究

近期相关研究包括：《Scaling Laws for Neural Language Models》、《Training and Inference with Integers in Deep Neural Networks》等。