Scalable MatMul-free Language Modeling

简介

矩阵乘法（MatMul）通常是大型语言模型（LLM）整体计算成本的主要组成部分。随着LLM扩展到更大的嵌入维度和上下文长度，这种成本只会增加。在这项工作中，我们展示了可以完全消除LLM中的MatMul操作，并在保持十亿参数规模下强大性能的同时实现。我们的实验表明，我们提出的无MatMul模型在至少2.7B参数规模下的表现与需要更多内存进行推理的最先进的Transformer模型相当。我们研究了扩展规律，并发现随着模型规模的增加，我们的无MatMul模型与全精度Transformer之间的性能差距逐渐缩小。我们还提供了一个GPU高效的实现，它在训练期间将内存使用量降低了高达61％，与未优化的基线相比。通过在推理期间利用优化的内核，与未优化的模型相比，我们的模型的内存消耗可以减少10倍以上。为了正确量化我们的架构的效率，我们在FPGA上构建了一个自定义硬件解决方案，利用了超出GPU能力的轻量级操作。我们以13W的超出人类可读吞吐量的速度处理了十亿参数规模的模型，使LLM更接近于类似大脑的效率。这项工作不仅展示了LLM在保持有效性的同时可以削减多少，而且还指出了未来加速器应该为处理下一代轻量级LLM所优化的操作类型。我们的代码实现可在https://github.com/ridgerchu/matmulfreellm上找到。
图表
解决问题

本论文旨在解决大型语言模型中矩阵乘法运算（MatMul）所带来的计算成本问题，同时保持模型的强大性能。
关键思路

论文提出了一种完全消除MatMul操作的方法，同时在保持性能的前提下，减少了模型的内存占用和计算成本。
其它亮点

论文的实验表明，该方法的性能与需要更多内存的现有Transformer模型相当，且随着模型尺寸的增大，MatMul-free模型与全精度Transformer模型的性能差距逐渐缩小。此外，论文还提供了GPU-efficient实现，可在训练期间将内存使用量降低高达61％，在推理期间将内存消耗降低10倍以上。最后，论文还构建了一个基于FPGA的硬件解决方案，可将大型语言模型的处理效率提高至人类可读的吞吐量。
相关研究

最近的相关研究包括《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

Scalable MatMul-free Language Modeling

评论