- 简介随着Transformer在序列长度方面的可扩展性限制,对于在训练期间可以并行处理的循环序列模型的兴趣重新燃起。因此,许多新颖的循环架构被提出,例如S4、Mamba和Aaren,它们实现了可比较的性能。在这项工作中,我们重新审视了十多年前的传统循环神经网络(RNNs):LSTMs(1997)和GRUs(2014)。虽然这些模型由于需要通过时间进行反向传播(BPTT)而变慢,但我们表明,通过从它们的输入、遗忘和更新门中删除它们的隐藏状态依赖性,LSTMs和GRUs不再需要BPTT,并且可以在并行中高效地训练。在此基础上,我们引入了最小版本(minLSTMs和minGRUs),它们(1)使用比传统版本少得多的参数,(2)在训练期间完全可并行化(对于长度为512的序列,速度快了175倍)。最后,我们表明,这些十年前简化版本的RNNs与最近的序列模型的实证性能相匹配。
- 图表
- 解决问题本文试图通过重新审视传统的循环神经网络(RNN)LSTM和GRU,将它们从需要BPTT的模型转化为不需要BPTT的模型,以解决Transformer对于序列长度的可扩展性限制问题。
- 关键思路本文的关键思路是通过将LSTM和GRU的隐藏状态依赖从它们的输入、遗忘和更新门中移除,将它们转化为可以在训练期间完全并行化的模型。此外,本文还提出了使用显著更少的参数的简化版本(minLSTMs和minGRUs),并展示了它们与最近的序列模型相匹配的实证性能。
- 其它亮点本文的亮点是提出了一种解决Transformer对于序列长度可扩展性限制的新思路,同时提出了可以在训练期间完全并行化的LSTM和GRU模型,并展示了这些模型的实证性能与最近的序列模型相匹配。实验使用了多个数据集,同时还开源了代码。
- 最近在这个领域中,还有一些相关的研究,如S4、Mamba和Aaren等循环神经网络模型,以及Transformer-XL和XLNet等新型序列模型。
沙发等你来抢
去评论
评论
沙发等你来抢