随着Transformer在序列长度方面的可扩展性限制,对于在训练期间可以并行处理的循环序列模型的兴趣重新燃起。因此,许多新颖的循环架构被提出,例如S4、Mamba和Aaren,它们实现了可比较的性能。在这项工作中,我们重新审视了十多年前的传统循环神经网络(RNNs):LSTMs(1997)和GRUs(2014)。虽然这些模型由于需要通过时间进行反向传播(BPTT)而变慢,但我们表明,通过从它们的输入、遗忘和更新门中删除它们的隐藏状态依赖性,LSTMs和GRUs不再需要BPTT,并且可以在并行中高效地训练。在此基础上,我们引入了最小版本(minLSTMs和minGRUs),它们(1)使用比传统版本少得多的参数,(2)在训练期间完全可并行化(对于长度为512的序列,速度快了175倍)。最后,我们表明,这些十年前简化版本的RNNs与最近的序列模型的实证性能相匹配。