- 简介变压器已经取代了循环神经网络,成为自然语言处理任务和模拟可预测性对在线人类语言理解影响的主要架构,尽管有认知不可信的批评。然而,最近开发的两种循环神经网络架构RWKV和Mamba似乎在自然语言任务上表现得比等效规模的变压器更好或相当。本文表明,现代循环模型现在也能够匹配或在某些情况下超越等效大小的变压器在模拟在线人类语言理解方面的性能。这表明变压器语言模型并不是唯一适用于此任务的模型,为关于语言模型的架构特征在多大程度上使它们成为更好或更差的人类语言理解模型的争论开辟了新的方向。
- 图表
- 解决问题比较循环神经网络和transformers在自然语言处理和人类语言理解方面的表现,探讨哪种模型更适合作为人类语言理解的模型。
- 关键思路本文通过实验发现,现代循环神经网络在模拟人类语言理解方面的表现与同等规模的transformers相当甚至更好,这表明transformers并不是唯一适合人类语言理解的模型,为模型架构对于人类语言理解模型的优劣开启了新的探讨方向。
- 其它亮点本文的实验结果表明,现代循环神经网络在自然语言处理和人类语言理解方面的表现与同等规模的transformers相当甚至更好,这证明transformers并不是唯一适合人类语言理解的模型。本文使用了两个最新的循环神经网络架构RWKV和Mamba,这两个模型在自然语言任务上的表现与transformers相当。本文的实验结果可以为模型架构对于人类语言理解模型的优劣开启新的探讨方向。
- 在最近的相关研究中,也有一些关于循环神经网络和transformers在自然语言处理和人类语言理解方面的比较研究。例如,《Attention is not Explanation》、《On the State of the Art of Evaluation in Neural Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢