Scalable MatMul-free Language Modeling

简介

矩阵乘法（MatMul）通常占据大型语言模型（LLMs）整体计算成本的主导地位。随着LLMs向更大的嵌入维度和上下文长度的规模扩展，这种成本只会增加。在这项工作中，我们展示了在保持十亿级参数规模下强大性能的同时，可以完全消除LLMs中的MatMul操作。我们的实验表明，我们提出的不需要MatMul的模型在至少2.7B参数规模下实现了与需要更多内存进行推理的最先进的Transformer相当的性能。我们研究了缩放定律，并发现随着模型规模的增加，我们的不需要MatMul的模型与全精度Transformer之间的性能差距缩小。我们还提供了一个GPU高效的实现，它在训练期间将内存使用量降低了高达61％，与未经优化的基线相比。通过在推理期间利用优化的内核，我们的模型的内存消耗可以比未经优化的模型降低10倍以上。为了正确量化我们架构的效率，我们在FPGA上构建了一种自定义硬件解决方案，利用了轻量级操作，超越了GPU的能力。我们以13W的超人类可读吞吐量处理了十亿级参数规模的模型，使LLMs更接近于大脑的效率。这项工作不仅展示了LLMs可以被削减到仍然有效的程度，而且还指出了未来加速器应该为处理下一代轻量级LLMs而优化的操作类型。我们的代码实现可在https://github.com/ridgerchu/matmulfreellm上获得。
图表
解决问题

本论文试图解决大型语言模型中矩阵乘法运算（MatMul）所带来的高计算成本问题，提出一种完全消除矩阵乘法的模型，并在保持强大性能的同时，减少内存使用和提高GPU效率。
关键思路

论文的关键思路是通过消除矩阵乘法，采用轻量级操作来构建模型，以达到减少计算成本和内存使用的目的。同时，论文提供了一个GPU-efficient的实现，通过优化内核在推理过程中减少内存使用，还构建了一个基于FPGA的硬件解决方案，实现了超越GPU的高效率。
其它亮点

论文的亮点包括：1. 提出完全消除矩阵乘法的模型，在保持性能的同时减少计算成本和内存使用；2. 提供了一个GPU-efficient的实现，在推理过程中通过优化内核减少内存使用；3. 构建了一个基于FPGA的硬件解决方案，实现了超越GPU的高效率；4. 实验结果表明，该模型在2.7B参数规模下的性能与当前最先进的Transformer模型相当。
相关研究

最近在这个领域中，还有一些相关的研究，如：1. Efficient Transformers: A Survey，2. Linformer: Self-Attention with Linear Complexity，3. Big Bird: Transformers for Longer Sequences，4. Reformer: The Efficient Transformer，5. Routing Transformers: Fast Passage Retrieval for Accelerated Training of Large Transformers。

Scalable MatMul-free Language Modeling

评论