Scalable MatMul-free Language Modeling

2024年06月04日
  • 简介
    矩阵乘法(MatMul)通常占据大型语言模型(LLMs)整体计算成本的主导地位。随着LLMs向更大的嵌入维度和上下文长度的规模扩展,这种成本只会增加。在这项工作中,我们展示了在保持十亿级参数规模下强大性能的同时,可以完全消除LLMs中的MatMul操作。我们的实验表明,我们提出的不需要MatMul的模型在至少2.7B参数规模下实现了与需要更多内存进行推理的最先进的Transformer相当的性能。我们研究了缩放定律,并发现随着模型规模的增加,我们的不需要MatMul的模型与全精度Transformer之间的性能差距缩小。我们还提供了一个GPU高效的实现,它在训练期间将内存使用量降低了高达61%,与未经优化的基线相比。通过在推理期间利用优化的内核,我们的模型的内存消耗可以比未经优化的模型降低10倍以上。为了正确量化我们架构的效率,我们在FPGA上构建了一种自定义硬件解决方案,利用了轻量级操作,超越了GPU的能力。我们以13W的超人类可读吞吐量处理了十亿级参数规模的模型,使LLMs更接近于大脑的效率。这项工作不仅展示了LLMs可以被削减到仍然有效的程度,而且还指出了未来加速器应该为处理下一代轻量级LLMs而优化的操作类型。我们的代码实现可在https://github.com/ridgerchu/matmulfreellm上获得。
  • 图表
  • 解决问题
    本论文试图解决大型语言模型中矩阵乘法运算(MatMul)所带来的高计算成本问题,提出一种完全消除矩阵乘法的模型,并在保持强大性能的同时,减少内存使用和提高GPU效率。
  • 关键思路
    论文的关键思路是通过消除矩阵乘法,采用轻量级操作来构建模型,以达到减少计算成本和内存使用的目的。同时,论文提供了一个GPU-efficient的实现,通过优化内核在推理过程中减少内存使用,还构建了一个基于FPGA的硬件解决方案,实现了超越GPU的高效率。
  • 其它亮点
    论文的亮点包括:1. 提出完全消除矩阵乘法的模型,在保持性能的同时减少计算成本和内存使用;2. 提供了一个GPU-efficient的实现,在推理过程中通过优化内核减少内存使用;3. 构建了一个基于FPGA的硬件解决方案,实现了超越GPU的高效率;4. 实验结果表明,该模型在2.7B参数规模下的性能与当前最先进的Transformer模型相当。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1. Efficient Transformers: A Survey,2. Linformer: Self-Attention with Linear Complexity,3. Big Bird: Transformers for Longer Sequences,4. Reformer: The Efficient Transformer,5. Routing Transformers: Fast Passage Retrieval for Accelerated Training of Large Transformers。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论