- 简介注意力机制模型(如Transformer)和循环模型(如状态空间模型SSM)已成为自回归序列建模的成功方法。虽然两者都能进行并行训练,但由于它们的自回归性质,都不能进行并行生成。我们提出了变分SSM(VSSM),这是一个变分自编码器(VAE),其中编码器和解码器都是SSM。由于可以并行采样潜变量并用SSM解码,因此可以同时进行训练和生成。此外,解码器的循环性质允许在不重新处理整个序列的情况下恢复生成。最后,我们提出了自回归VSSM,它可以以部分序列实现为条件,这在语言生成任务中很常见。有趣的是,自回归VSSM仍然可以进行并行生成。我们在玩具问题(MNIST,CIFAR)上展示了加速的实证收益,并展示了它在生成质量上与传统模型(Transformer,Mamba SSM)的竞争力。
- 图表
- 解决问题论文提出了一种解决序列建模中自回归模型无法进行并行生成的问题的方法,即变分状态空间模型(VSSM),并且提出了基于VSSM的自回归模型,用于语言生成等任务。
- 关键思路VSSM是一种变分自编码器,其编码器和解码器都是状态空间模型。由于可以并行采样潜变量并用SSM解码,因此VSSM可以实现并行生成。同时,解码器的循环结构使得可以在不重新处理整个序列的情况下恢复生成。
- 其它亮点论文在MNIST和CIFAR等数据集上进行了实验,证明了VSSM在生成速度和生成质量上都具有优势,并且与传统模型(如Transformer和Mamba SSM)相媲美。此外,论文还提出了基于VSSM的自回归模型,可以在语言生成等任务中使用。论文中的方法可以用于并行生成序列数据,具有实际应用价值。
- 近期的相关研究包括使用自回归模型进行序列建模的工作,如Transformer和LSTM,以及使用变分自编码器进行序列建模的工作,如SSM和LVAE。
沙发等你来抢
去评论
评论
沙发等你来抢