- 简介Transformer由自注意力和前馈网络组成,已经在各种视觉任务的网络设计中彻底改变了局面。前馈网络是一种多才多艺的运算符,可以无缝地整合到几乎所有AI模型中,以有效地利用丰富的表示。最近的研究还表明,前馈网络就像键值内存一样运作。因此,类似于自我关注中的查询-键-值机制,前馈网络可以被视为一个内存网络,其中输入作为查询,两个投影权重分别作为键和值。我们假设重要性在于查询-键-值框架本身,而不在于自我关注。为了验证这一点,我们提出将自我关注转化为更像前馈网络的高效令牌混合器,只使用卷积并保留查询-键-值框架,即FFNification。具体来说,FFNification用大核卷积替换查询-键和注意力系数-值的交互,并采用GELU激活函数代替softmax。派生的令牌混合器FFNified attention用于检测局部分布的空间模式,并在查询-键-值框架的每个相应子操作中的相反维度上运作。在上述两个模块的基础上,我们提出了一系列快速前馈网络。我们的FFNet在各种任务中都取得了显著的性能改进,超过了以前的最先进方法。我们提出的方法的强大和通用性验证了我们的假设,并引出了MetaMixer,这是一种不指定查询-键-值框架中子操作的通用混合器架构。我们展示了只使用简单的操作,如卷积和GELU,在MetaMixer中可以实现更优秀的性能。
- 图表
- 解决问题论文试图验证 Feed-Forward Network(FFN)中的 query-key-value 框架比自注意力更重要,提出了一种基于卷积的 token mixer,即 FFNification,用于替换自注意力中的 query-key 和 attention coefficient-value 交互。
- 关键思路论文提出了一种新的基于卷积的 token mixer,即 FFNification,用于替换自注意力中的 query-key 和 attention coefficient-value 交互,以验证 query-key-value 框架的重要性,同时提出了一种新的通用 mixer 架构 MetaMixer。
- 其它亮点论文在多个任务上都取得了显著的性能提升,证明了 FFNification 和 MetaMixer 的有效性。实验使用了多个数据集,并开源了代码。此外,论文还指出了 FFN 的多种应用,以及 MetaMixer 的潜在研究方向。
- 近期的相关研究包括:《Attention Is All You Need》、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》、《Reformer: The Efficient Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢