- 简介由于Transformer在序列长度方面的可扩展性限制,使得可在训练期间并行化的递归序列模型再次受到关注。因此,许多新颖的递归架构,如S4、Mamba和Aaren,已被提出,其性能可与Transformer相媲美。在本研究中,我们重新审视了十多年前的传统递归神经网络(RNNs):LSTMs(1997)和GRUs(2014)。虽然这些模型由于需要通过时间反向传播(BPTT)而变慢,但我们表明,通过从它们的输入、遗忘和更新门中删除它们的隐藏状态依赖性,LSTMs和GRUs不再需要BPTT,可以在并行训练中高效地训练。在此基础上,我们引入了最小版本(minLSTMs和minGRUs),它们(1)使用比传统版本少得多的参数,并且(2)在训练期间完全可并行化(对于长度为512的序列,速度提高了175倍)。最后,我们证明,这些十年前的被简化版本的RNNs与最近的序列模型的实证表现相匹配。
- 图表
- 解决问题论文试图解决RNN模型在序列长度上的可扩展性限制,提出一种可以并行训练的RNN架构,以及通过简化LSTM和GRU模型来提高训练效率和减少参数数量,同时保持性能。
- 关键思路通过去除LSTM和GRU模型中隐藏状态对输入、遗忘和更新门的依赖,使其不再需要通过时间反向传播(BPTT),从而可以实现完全并行化训练。同时,通过引入minLSTMs和minGRUs,进一步减少参数数量和提高训练效率。
- 其它亮点论文展示了去年代的LSTM和GRU模型在简化后可以达到与最新序列模型相当的性能,同时训练速度快175倍。实验使用了多个数据集,并开源了代码。
- 最近的相关研究主要集中在提高RNN模型的可扩展性方面,比如S4、Mamba和Aaren等新型RNN架构。
沙发等你来抢
去评论
评论
沙发等你来抢