xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference

向作者提问

NEW

简介

近期，在利用大规模语言模型（LLMs）解决推理、数学和编程问题方面取得的突破，得益于在推理阶段投入了大量计算资源。因此，推理速度成为大型语言模型架构最关键的属性之一，对高效且快速推理的 LLMs 的需求也在不断增长。最近，基于 xLSTM 架构构建的 LLMs 成为了 Transformer 的一种强大替代方案，它提供了与序列长度成线性比例的计算扩展能力，并且内存使用保持恒定，这两者都是实现高效推理的非常理想的特性。然而，目前尚未将基于 xLSTM 的 LLMs 扩展到更大规模的模型，并对其在推理速度和效率方面的表现进行评估和比较。在本研究中，我们引入了 xLSTM 7B，这是一个包含 70 亿参数的 LLM，结合了 xLSTM 架构的优势以及针对快速和高效推理的专门优化。我们的实验表明，xLSTM 7B 在下游任务中的表现与其他同等规模的 LLMs 相当，同时相比基于 Llama 和 Mamba 的 LLMs，它提供了显著更快的推理速度和更高的效率。这些结果确立了 xLSTM 7B 作为最快的且最高效的 70 亿参数级 LLM 的地位，为需要大量测试时计算的任务提供了解决方案。我们的工作展示了 xLSTM 作为支持高效 LLM 推理方法的基础架构的潜力。我们的模型权重、模型代码和训练代码均已开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决大型语言模型在推理阶段计算效率低的问题，尤其是在处理长序列时的计算和内存瓶颈。这是一个重要的问题，但并非全新的研究方向，而是对现有Transformer架构性能优化的一个延伸。
关键思路

关键思路是引入xLSTM架构来构建一个70亿参数的大型语言模型（xLSTM 7B）。相比Transformer，xLSTM具有线性计算扩展和恒定内存使用的优势，同时通过特定优化进一步提升推理速度和效率。这种架构为高效推理提供了一种新的解决方案。
其它亮点

实验表明，xLSTM 7B在下游任务上的表现与同规模的其他LLM相当，但在推理速度和效率上显著优于Llama和Mamba等基于Transformer的模型。此外，该模型的权重、代码和训练流程均已开源，便于社区复现和改进。未来可以深入研究xLSTM架构在更大规模模型上的应用潜力。
相关研究

近期相关研究包括：1) Llama系列模型，探索了大规模预训练和高效推理；2) Mamba模型，专注于多模态任务中的推理效率；3) EfficientNet研究，关注卷积神经网络中的计算效率；4) Reformer模型，提出局部敏感哈希方法以降低Transformer的计算复杂度。这些工作共同推动了高效深度学习模型的发展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问