Were RNNs All We Needed?

简介

随着Transformer在序列长度方面的可扩展性限制，对于在训练期间可以并行处理的循环序列模型的兴趣重新燃起。因此，许多新颖的循环架构被提出，例如S4、Mamba和Aaren，它们实现了可比较的性能。在这项工作中，我们重新审视了十多年前的传统循环神经网络（RNNs）：LSTMs（1997）和GRUs（2014）。虽然这些模型由于需要通过时间进行反向传播（BPTT）而变慢，但我们表明，通过从它们的输入、遗忘和更新门中删除它们的隐藏状态依赖性，LSTMs和GRUs不再需要BPTT，并且可以在并行中高效地训练。在此基础上，我们引入了最小版本（minLSTMs和minGRUs），它们（1）使用比传统版本少得多的参数，（2）在训练期间完全可并行化（对于长度为512的序列，速度快了175倍）。最后，我们表明，这些十年前简化版本的RNNs与最近的序列模型的实证性能相匹配。
图表
解决问题

本文试图通过重新审视传统的循环神经网络（RNN）LSTM和GRU，将它们从需要BPTT的模型转化为不需要BPTT的模型，以解决Transformer对于序列长度的可扩展性限制问题。
关键思路

本文的关键思路是通过将LSTM和GRU的隐藏状态依赖从它们的输入、遗忘和更新门中移除，将它们转化为可以在训练期间完全并行化的模型。此外，本文还提出了使用显著更少的参数的简化版本（minLSTMs和minGRUs），并展示了它们与最近的序列模型相匹配的实证性能。
其它亮点

本文的亮点是提出了一种解决Transformer对于序列长度可扩展性限制的新思路，同时提出了可以在训练期间完全并行化的LSTM和GRU模型，并展示了这些模型的实证性能与最近的序列模型相匹配。实验使用了多个数据集，同时还开源了代码。
相关研究

最近在这个领域中，还有一些相关的研究，如S4、Mamba和Aaren等循环神经网络模型，以及Transformer-XL和XLNet等新型序列模型。

评论