标题:清华|Global Filter Networks for Image Classification(用于图像分类的全局过滤网络)

简介:自注意力和纯多层感知器 (MLP) 模型的显示出巨大的潜力且更少的归纳偏置。这些模型一般都是学习在原始数据的空间位置交互。 自注意力和多层感知机的复杂性随着图像大小的增加呈二次增长,这使得这些模型在需要高分辨率时按比例放大变得困难。在本文中,我们提出全局过滤器网络 (GFNet),一个概念上简单但计算上高效的架构,学习频率的长期空间依赖性具有对数线性复杂度的域。我们的架构取代了自注意力具有三个关键操作的视觉变换器层:二维离散傅立叶变换,频域特征和可学习的全局滤波器和二维傅立叶逆变换。我们展示了我们的模型在 ImageNet 和下游的准确性/复杂性权衡任务的优势。我们的结果表明GFNet可以在效率、泛化能力和稳健性成为一个非常有竞争力的替代方案。

代码下载:https://github.com/raoyongming/GFNet

论文下载:https://arxiv.org/pdf/2107.00645v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除