标题:谷歌|FNet: Mixing Tokens with Fourier Transforms(FNet:混合符号与傅立叶变换)
简介:我们展示了可以极大地加快变换器编码器体系结构的速度,并且其局限性在于通过替换自注意力为具有简单线性变换的子层“混合”输入符号来提高准确性成本。这些线性变换以及简单的非线性前馈层足以在几个文本分类任务中为语义关系建模。最令人惊讶的是,我们发现在一个带有标准无参数傅里叶变换的变换器编码器在GLUE基准测试上可达到92%的BERT性能,但预训练和推理在GPU上速度快了7倍,在TPU上快一倍。这结果模型(FNet)可以扩展非常有效地处理长距离输入,与Long Range Arena基准上最准确的“高效”变压器的精度相匹配,但是在GPU上所有序列长度上的训练和运行速度更快,并且相对较短TPU上的序列长度。最后,FNet有一个内存占用量小,并且在较小的模型尺寸下特别有效:固定速度和准确度预算方面,小型FNet模型的性能优于Transformer同类产品。
下载链接:https://arxiv.org/pdf/2105.03824v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢