Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers

2024年07月13日
  • 简介
    本文基于Transformer模型的框架,构建了广泛的序列模型,包括交替的序列混合器和通道混合器层。本文研究了序列混合器的统一矩阵混合器视图,可以将其概念化为输入序列上的线性映射。该框架涵盖了广泛的知名序列模型,包括Transformer的自注意力以及最近的强大替代模型,如结构状态空间模型(SSM),并通过其结构化矩阵类的属性来理解下游特性,如效率和表达能力。我们确定了一个关键的矩阵参数化轴,称为序列对齐,它增加了矩阵混合器的灵活性和性能,为Transformer和最近的SSM(如Mamba)的强大性能提供了见解。此外,矩阵混合器框架提供了一种系统方法来开发具有所需属性的序列混合器,使我们能够开发出几种新的次二次序列模型。特别地,我们提出了Mamba模型的自然双向扩展(Hydra),其被参数化为准可分离矩阵混合器,表现出优于其他序列模型的性能,包括在非因果任务上优于Transformer。作为注意力层的替代方案,Hydra在GLUE基准测试中比BERT高0.8分,在ImageNet的Top-1准确率上比ViT高2%。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在研究基于Transformer框架的序列模型,包括交替序列混合器和通道混合器层。研究一个统一的矩阵混合器视图,将其概念化为输入序列上的线性映射,以理解其下游特性。通过结构化矩阵类的属性,该框架涵盖了广泛的已知序列模型,包括Transformer的自我注意力和最近的强大替代品,如结构状态空间模型(SSMs)。研究了矩阵参数化的关键轴,称为序列对齐,提高了矩阵混合器的灵活性和性能。提出了几种新的次二次序列模型,包括自然的Mamba模型的双向扩展(Hydra),以及一种基于quasiseparable矩阵混合器的参数化。在非因果任务上,Hydra比其他序列模型(包括Transformer)表现更好。在GLUE基准测试中,作为注意力层的替代品,Hydra比BERT高0.8个百分点,在ImageNet的Top-1准确率上比ViT高2%。
  • 关键思路
    本文提出了一个统一的矩阵混合器视图,将其概念化为输入序列上的线性映射,以理解其下游特性。通过研究矩阵参数化的关键轴,提高了矩阵混合器的灵活性和性能。提出了几种新的次二次序列模型,包括自然的Mamba模型的双向扩展(Hydra),以及一种基于quasiseparable矩阵混合器的参数化。
  • 其它亮点
    本文研究了基于Transformer框架的序列模型,并提出了一个统一的矩阵混合器视图,将其概念化为输入序列上的线性映射,以理解其下游特性。提出了几种新的次二次序列模型,包括自然的Mamba模型的双向扩展(Hydra),以及一种基于quasiseparable矩阵混合器的参数化。在非因果任务上,Hydra比其他序列模型(包括Transformer)表现更好。在GLUE基准测试中,作为注意力层的替代品,Hydra比BERT高0.8个百分点,在ImageNet的Top-1准确率上比ViT高2%。实验数据集和开源代码也得到了公开。
  • 相关研究
    在这个领域中,最近的相关研究包括《Attention Is All You Need》、《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问