许多研究证实了循环神经网络在长序列数据具有快速推理和有效建模的优点,但其优化难、收敛慢的问题仍是一大缺陷。近期,深度状态-空间网络(Deep state-space model, SSM)在长序列建模任务上取得了有效的应用,且其具有了RNN的快速并行训练和快速推理优势。然而,尽管SSM与RNN具有相同的机制和做法,但其性能能够超过RNN的原因和关键区别仍未得到探索。在本文中,作者发现RNN的有效设计能够取得SSM在长序列推理任务上的同等性能,同时能够较好地提升训练速度。

论文地址:https://arxiv.org/pdf/2303.06349.pdf

作者信息:Antonio Orvieto, Samuel L. Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre, Razvan Pascanu, Soham De

内容中包含的图片若涉及版权问题,请及时与我们联系删除