- 简介注意力自由的语言模型结合门控和卷积越来越受欢迎,因为它们的效率和竞争性能越来越高。为了更好地理解这些架构,我们预先训练了一套17个注意力和“门控卷积”语言模型,发现SoTA门控卷积架构在Pile上的表现仍然比注意力差,最高可达2.1个困惑度。在细粒度分析中,我们发现82%的差距可以解释为每个模型在上下文中回忆先前提到的信息的能力,例如“Hakuna Matata意味着没有烦恼Hakuna Matata意味着没有”$\rightarrow$“??”。在这个任务中,被称为“联想回忆”,我们发现注意力远远优于门控卷积:一个7000万参数的注意力模型在联想回忆方面优于一个14亿参数的门控卷积模型。这是令人惊讶的,因为之前的研究表明,门控卷积可以完美地解决AR能力的合成测试。为了弥合合成和真实语言之间的差距,我们开发了一个称为多查询联想回忆(MQAR)的任务的新形式化,更好地反映了实际语言。我们进行了MQAR的实证和理论研究,阐明了注意力和门控卷积回忆参数效率的差异。在我们的分析基础上,我们评估了简单的卷积-注意力混合模型,并展示了具有输入相关稀疏注意力模式的混合模型可以缩小97.4%的注意力差距,同时保持次二次比例尺度。我们的代码可以在以下链接中找到:https://github.com/HazyResearch/zoology。
- 图表
- 解决问题本文旨在研究结合门控和卷积的注意力无关语言模型的性能,发现当前最先进的门控卷积架构在Pile数据集上的困惑度比注意力模型高2.1个点。作者进一步发现,82%的差距可以解释为每个模型在上下文中回忆先前提到的信息的能力不同,即关联记忆能力。作者提出了一个更贴近实际语言的任务——多查询关联记忆(MQAR),并在该任务上比较了注意力和门控卷积模型的表现。最终作者开发了一种新的融合卷积和注意力的模型,能够在保持次二次扩展的同时,实现97.4%的关联记忆能力缩小差距。
- 关键思路本文提出了一个新的任务MQAR,更贴近实际语言,比之前的任务更能反映模型的关联记忆能力。作者发现,注意力模型在关联记忆任务上表现更好,但门控卷积模型在合成测试中表现很好,这说明合成测试无法完全反映实际语言的复杂性。作者开发了一种新的融合卷积和注意力的模型,能够在保持次二次扩展的同时,实现97.4%的关联记忆能力缩小差距。
- 其它亮点作者进行了实验研究,发现注意力模型在关联记忆任务上表现更好,但门控卷积模型在合成测试中表现很好,这说明合成测试无法完全反映实际语言的复杂性。作者提出了一个新的任务MQAR,更贴近实际语言,比之前的任务更能反映模型的关联记忆能力。作者开发了一种新的融合卷积和注意力的模型,能够在保持次二次扩展的同时,实现97.4%的关联记忆能力缩小差距。作者的代码已经开源。
- 最近的相关研究包括《Attention Is All You Need》、《Gated Convolutional Networks for Neural Machine Translation》和《Convolutional Sequence to Sequence Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢