Transformer一定比LSTM RNN高效吗？

Reddit上的一个热门讨论贴子，贴主说：

过去我在各种项目中经常使用LSTM RNN，但是最近一段时间一直搞计算机视觉了，所以错过了在NLP上大放光彩的Transformer。我已经读了很多Transformer的文章，但对其架构和实用性还是有点拿不准。我并不否认在大多数基准测试中它们似乎都是SOTA，但是我想知道，一个表面上前馈的网络是怎么在不真正循环的情况下获得循环的所有优点的？我记得有状态的LSTM似乎在某些任务上利用了它们的存储单元，来学习对超出BPTT序列长度限制的非常长的序列进行建模。这通常在大多数任务上不是很重要，但在某些情况下似乎很有用，例如原始音频的音乐生成，同时，我叶注意到无状态LSTM变体似乎无法再现有状态LSTM的质量。所以，我很好奇，有没有适当的有状态的Transformer？是否有人尝试将存储单元组件集成到Transformer架构里？同样，似乎Transformer大多将softmax用于其注意力头部激活功能。有没有测试可以将它与诸如sigmoid或类似的替代方案进行比较？我注意到大多数成功的Transformer模型都很大。对于较小的模型，例如可以在手机应用程序中安装的模型，LSTM是否仍具有一定的竞争力，还是Transformer在那里也有优势？我正在尝试决定是继续迭代具有LSTM的旧模型，还是重新开始使用Transformer。在正常情况下，我会同时训练两种，进行比较测试，但是如果谁有更多经验能分享一下，节省大家的时间，我将非常感谢。

欢迎对两者都熟悉的同学谈一谈。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Transformer一定比LSTM RNN高效吗？

评论