Transformer引燃机器学习圈：它是新的LSTM吗？

1997 年，Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络（LSTM）论文，被认为是机器学习发展史上的一座里程碑。

LSTM 是一种特殊的循环神经网络（RNN），而 Transformer 诞生伊始就完全舍弃了 RNN，在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在，许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers with Code 最近发布的 Transformer 应用十大新任务中，过去都有着 LSTM 的活跃身影。

Transformer 是新的 LSTM 吗？从模型应用领域的多样性来看，这似乎已见雏形。谷歌研究科学家 David Ha 、英伟达研究科学家 Ankur Handa等对它表达了推崇，但Sepp Hochreiter却认为Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。

本文将对Transformer 自诞生后的技术发展脉络、未来应用方向以及各方的评价等，作一个全景概述，感兴趣的读者可以点击下面的“阅读原文”链接。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Transformer引燃机器学习圈：它是新的LSTM吗？

评论列表

评论