标题:苹果|An Attention Free Transformer(无注意力变换器)
简介:我们引入了无注意力变换器,这是变换器的一种有效变体,它消除了对点积自注意的需要。在无注意力变换器层中,键和值首先与一组学习的位置偏差相结合,其结果以元素方式与查询相乘。这个新操作的内存复杂度为线性上下文大小和特征维度,使其兼容大输入和模型大小。 我们还介绍了AFT-local和AFT-conv,这两种模型变体在保持全局连接的同时利用了局部性和空间权重共享的思想。对两个自回归建模任务(CIFAR10 和 Enwik8)以及一个图像识别任务(ImageNet-1K 分类)进行了大量实验。 实验表明,AFT 在所有基准测试中都表现出具有竞争力的性能,同时提供出色的效率。
论文下载:https://arxiv.org/pdf/2105.14103v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢