- 简介在序列学习中,建模序列数据中的长程依赖是一个关键步骤。最近开发的模型——结构状态空间(S4)在建模长程序列方面表现出了显著的有效性。然而,尚不清楚S4的成功是否归因于其复杂的参数化和HiPPO初始化,还是仅仅由于状态空间模型(SSM)。为了进一步探究深度SSM的潜力,我们从简单的SSM——指数平滑(ETS)开始,并提出了一种堆叠架构,直接将其并入逐元素MLP中。我们通过增加额外的参数和复杂的领域来降低归纳偏差,增强了简单的ETS。尽管我们只增加了逐元素MLP不到1%的参数,但我们的模型在LRA基准测试中取得了与S4相当的结果。
- 图表
- 解决问题论文试图探究如何在序列学习中建模长程依赖,以及是否可以利用简单的状态空间模型(SSMs)实现类似于Structured State Space (S4)的成果。
- 关键思路论文提出了一种堆叠结构,将简单的指数平滑(ETS)直接融入元素级MLP中,通过增加参数和复杂度,减少归纳偏差。这种方法的参数比S4少1%,但在LRA基准测试中取得了与S4相当的结果。
- 其它亮点论文的实验设计了一系列对比实验,使用了LRA基准测试数据集,并提供了开源代码。研究表明,简单的状态空间模型可以达到与S4相当的效果,这为序列学习提供了更简单的方法。
- 在相关研究方面,目前还没有类似于本文提出的将简单状态空间模型嵌入到深度神经网络中的方法。但是,有一些研究关注于使用SSMs进行序列建模,如Kalman滤波器和LSTM-SSMs。
沙发等你来抢
去评论
评论
沙发等你来抢