- 简介矩阵乘法(MatMul)通常是大型语言模型(LLM)整体计算成本的主要组成部分。随着LLM扩展到更大的嵌入维度和上下文长度,这种成本只会增加。在这项工作中,我们展示了可以完全消除LLM中的MatMul操作,并在保持十亿参数规模下强大性能的同时实现。我们的实验表明,我们提出的无MatMul模型在至少2.7B参数规模下的表现与需要更多内存进行推理的最先进的Transformer模型相当。我们研究了扩展规律,并发现随着模型规模的增加,我们的无MatMul模型与全精度Transformer之间的性能差距逐渐缩小。我们还提供了一个GPU高效的实现,它在训练期间将内存使用量降低了高达61%,与未优化的基线相比。通过在推理期间利用优化的内核,与未优化的模型相比,我们的模型的内存消耗可以减少10倍以上。为了正确量化我们的架构的效率,我们在FPGA上构建了一个自定义硬件解决方案,利用了超出GPU能力的轻量级操作。我们以13W的超出人类可读吞吐量的速度处理了十亿参数规模的模型,使LLM更接近于类似大脑的效率。这项工作不仅展示了LLM在保持有效性的同时可以削减多少,而且还指出了未来加速器应该为处理下一代轻量级LLM所优化的操作类型。我们的代码实现可在https://github.com/ridgerchu/matmulfreellm上找到。
- 图表
- 解决问题本论文旨在解决大型语言模型中矩阵乘法运算(MatMul)所带来的计算成本问题,同时保持模型的强大性能。
- 关键思路论文提出了一种完全消除MatMul操作的方法,同时在保持性能的前提下,减少了模型的内存占用和计算成本。
- 其它亮点论文的实验表明,该方法的性能与需要更多内存的现有Transformer模型相当,且随着模型尺寸的增大,MatMul-free模型与全精度Transformer模型的性能差距逐渐缩小。此外,论文还提供了GPU-efficient实现,可在训练期间将内存使用量降低高达61%,在推理期间将内存消耗降低10倍以上。最后,论文还构建了一个基于FPGA的硬件解决方案,可将大型语言模型的处理效率提高至人类可读的吞吐量。
- 最近的相关研究包括《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢