- 简介在1990年代,长短期记忆网络(LSTM)引入了常数误差旋转木马和门控机制作为其核心思想。自那时以来,LSTM经受住了时间的考验,并为众多深度学习成功故事做出了贡献,特别是成为了第一个大型语言模型(LLM)。然而,拥有可并行化自注意力核心的Transformer技术的出现标志着一个新时代的开端,使其在规模上超越了LSTM。我们现在提出一个简单的问题:当将LSTM扩展到数十亿个参数时,利用现代LLM的最新技术,但减轻已知的LSTM限制,我们在语言建模方面能达到什么程度?首先,我们引入了具有适当归一化和稳定技术的指数门控机制。其次,我们修改了LSTM记忆结构,得到了:(i)标量记忆、标量更新和新的记忆混合的sLSTM,(ii)具有矩阵记忆和协方差更新规则的可完全并行化的mLSTM。将这些LSTM扩展集成到残差块骨干中,得到了xLSTM块,然后将其残差堆叠到xLSTM架构中。指数门控机制和修改的记忆结构提高了xLSTM的性能和可扩展性,使其在性能和规模方面与最先进的Transformer和状态空间模型相比表现优异。
- 图表
- 解决问题本文尝试通过对LSTM进行扩展,解决在大规模语言模型中LSTM的限制问题,以及验证扩展后的xLSTM在性能和规模上是否能与Transformer和State Space Models相媲美。
- 关键思路本文提出了指数门控和修改LSTM内存结构的方法,得到了sLSTM和mLSTM两种扩展,将它们与残差块相结合得到xLSTM,从而提高了LSTM在大规模语言模型中的性能和规模。
- 其它亮点实验表明,扩展后的xLSTM在性能和规模上能与Transformer和State Space Models相媲美。本文的数据集使用了Wikipedia和Gutenberg等,代码已开源。
- 最近相关研究有《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢