There is HOPE to Avoid HiPPOs for Long-memory State Space Models

2024年05月22日
  • 简介
    这段摘要介绍了利用线性、时不变系统的状态空间模型(SSMs)在学习长序列方面的有效性,但是这些模型通常面临以下几个挑战:(i)需要特定设计的系统矩阵初始化才能达到最先进的性能;(ii)需要在对数尺度上训练状态矩阵,并使用非常小的学习率以防止不稳定性;(iii)需要模型具有指数衰减的记忆力,以确保渐近稳定的LTI系统。为了解决这些问题,研究者们通过Hankel算子理论来研究SSMs,从而提出了一种新的参数化方案——HOPE,它利用Hankel算子中的马尔可夫参数来实现LTI系统的随机初始化和改善训练稳定性,并提供SSMs非衰减的记忆能力。该模型通过非均匀采样LTI系统的传递函数来高效实现这些创新,且需要的参数比规范的SSMs少。在Long-Range Arena (LRA)任务中,基于Hankel算子参数化的SSM相比于HiPPO初始化模型(如S4和S4D)表现更好。此外,研究者们还使用了一个顺序的CIFAR-10任务来经验性地证实了他们的SSM具有长期记忆能力。
  • 图表
  • 解决问题
    本文旨在解决线性时不变系统的状态空间模型在学习长序列时所面临的挑战,包括需要特定设计的初始化、需要在对数尺度上训练状态矩阵以防止不稳定性,以及需要模型具有指数衰减的记忆能力以确保渐近稳定的LTI系统。
  • 关键思路
    本文通过Hankel算子理论来看待状态空间模型,提出了一种新的参数化方案HOPE,利用Hankel算子中的马尔科夫参数,使得LTI系统可以进行随机初始化并提高训练稳定性,同时具有非衰减的记忆能力。
  • 其它亮点
    本文所提出的模型通过非均匀采样LTI系统的传递函数来实现创新,相比于传统的SSM模型需要更少的参数,且在Long-Range Arena任务上表现优异。此外,作者还通过一个带有填充噪声的顺序CIFAR-10任务来验证模型的长期记忆能力。
  • 相关研究
    最近的相关研究包括S4和S4D等HiPPO初始化模型,以及使用LSTM和Transformer等模型来解决序列建模问题的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论