- 简介近期,在利用大规模语言模型(LLMs)解决推理、数学和编程问题方面取得的突破,得益于在推理阶段投入了大量计算资源。因此,推理速度成为大型语言模型架构最关键的属性之一,对高效且快速推理的 LLMs 的需求也在不断增长。最近,基于 xLSTM 架构构建的 LLMs 成为了 Transformer 的一种强大替代方案,它提供了与序列长度成线性比例的计算扩展能力,并且内存使用保持恒定,这两者都是实现高效推理的非常理想的特性。然而,目前尚未将基于 xLSTM 的 LLMs 扩展到更大规模的模型,并对其在推理速度和效率方面的表现进行评估和比较。在本研究中,我们引入了 xLSTM 7B,这是一个包含 70 亿参数的 LLM,结合了 xLSTM 架构的优势以及针对快速和高效推理的专门优化。我们的实验表明,xLSTM 7B 在下游任务中的表现与其他同等规模的 LLMs 相当,同时相比基于 Llama 和 Mamba 的 LLMs,它提供了显著更快的推理速度和更高的效率。这些结果确立了 xLSTM 7B 作为最快的且最高效的 70 亿参数级 LLM 的地位,为需要大量测试时计算的任务提供了解决方案。我们的工作展示了 xLSTM 作为支持高效 LLM 推理方法的基础架构的潜力。我们的模型权重、模型代码和训练代码均已开源。
-
- 图表
- 解决问题本论文试图解决大型语言模型在推理阶段计算效率低的问题,尤其是在处理长序列时的计算和内存瓶颈。这是一个重要的问题,但并非全新的研究方向,而是对现有Transformer架构性能优化的一个延伸。
- 关键思路关键思路是引入xLSTM架构来构建一个70亿参数的大型语言模型(xLSTM 7B)。相比Transformer,xLSTM具有线性计算扩展和恒定内存使用的优势,同时通过特定优化进一步提升推理速度和效率。这种架构为高效推理提供了一种新的解决方案。
- 其它亮点实验表明,xLSTM 7B在下游任务上的表现与同规模的其他LLM相当,但在推理速度和效率上显著优于Llama和Mamba等基于Transformer的模型。此外,该模型的权重、代码和训练流程均已开源,便于社区复现和改进。未来可以深入研究xLSTM架构在更大规模模型上的应用潜力。
- 近期相关研究包括:1) Llama系列模型,探索了大规模预训练和高效推理;2) Mamba模型,专注于多模态任务中的推理效率;3) EfficientNet研究,关注卷积神经网络中的计算效率;4) Reformer模型,提出局部敏感哈希方法以降低Transformer的计算复杂度。这些工作共同推动了高效深度学习模型的发展。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流