- 简介最近,线性注意力变压器(即线性变压器)和状态空间模型被提出作为变压器具有softmax注意力的可行的线性时间替代方案。然而,这些模型在需要上下文检索的任务上仍然表现不如变压器。虽然更具表现力的线性变压器变体已经被发现用Delta规则替换线性变压器中的加性外积更新后,在关联回忆方面更有效,但是现有的训练这些模型的算法不能并行处理序列长度,因此在现代硬件上训练效率低下。本文描述了一种硬件有效的使用Delta规则训练线性变压器的算法,该算法利用一种内存有效的表示方法来计算Householder矩阵的乘积。该算法使我们能够将DeltaNet扩展到标准语言建模设置。我们对100B个令牌训练了一个1.3B模型,并发现它在困惑度和下游任务的零-shot性能方面优于最近的线性时间基线,如Mamba和GLA(包括专注于回忆的任务)。我们还尝试了两种混合模型,将DeltaNet层与(1)每隔一层的滑动窗口注意力层或(2)两个全局注意力层相结合,并发现这些混合模型优于强变压器基线。
- 图表
- 解决问题论文旨在提出一种硬件高效的算法,以实现使用Delta规则训练线性变压器,以便在需要上下文检索的任务中提高性能。
- 关键思路论文提出了一种硬件高效的算法,利用一种内存高效的表示方法来计算Householder矩阵的乘积,从而实现使用Delta规则训练线性变压器。
- 其它亮点论文使用提出的算法训练了一个1.3B模型,使用100B个令牌进行训练,并发现它在困惑度和下游任务的零-shot性能方面优于最近的线性时间基线。论文还尝试了两种混合模型,将DeltaNet层与滑动窗口注意力层或两个全局注意力层相结合,并发现这些混合模型优于强Transformer基线。
- 最近的相关研究包括Mamba和GLA等线性时间基线的研究。
沙发等你来抢
去评论
评论
沙发等你来抢