- 简介我们通过其双重表示——传递函数,来设计适用于深度学习应用的状态空间模型,并发现了一种高效的序列并行推断算法,该算法是无状态的:与其他提出的算法不同,无状态推断不会随着状态大小的增加而产生任何重要的内存或计算成本。我们通过所提出的频域传递函数参数化的属性来实现这一点,这使得可以通过单个快速傅里叶变换直接计算其相应的卷积核频谱。我们在多个序列长度和状态大小上的实验结果表明,在长距离竞技场基准测试中,相比于时域参数化的S4层,平均训练速度提高了35%,同时在其他无注意力方法上提供了最先进的下游性能。此外,我们通过引入我们的传递函数参数化,报告了在语言建模中相对于长卷积Hyena基线的改进困惑度。我们的代码可在 https://github.com/ruke1ire/RTF 上获得。
- 图表
- 解决问题本篇论文旨在通过转移函数的双重表示来设计状态空间模型,提出了一种高效的序列并行推理算法,该算法是无状态的,不会随着状态大小的增加而产生任何显著的内存或计算成本。同时,论文还试图验证该方法是否能够在语言建模和长距离序列任务中提高性能。
- 关键思路通过频域转移函数参数化的性质,可以通过单个快速傅里叶变换直接计算其对应的卷积核频谱,从而实现无状态的序列并行推理算法。
- 其它亮点论文的实验结果表明,相对于S4层,该方法在Long Range Arena基准测试中平均训练速度提高了35%,同时在其他无关注方法上实现了最先进的下游性能。此外,通过引入转移函数参数化,论文在语言建模中也实现了比长卷积Hyena基线更好的困惑度。作者已经开源了代码。
- 最近的相关研究包括:1. Vaswani等人提出的自注意力机制;2. Shaw等人提出的卷积神经网络语言模型;3. Dai等人提出的Transformer XL。
沙发等你来抢
去评论
评论
沙发等你来抢