标题:新加坡国立、南开、新加坡海洋AI实验室|Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition(视觉置换器:类似于 MLP 的置换视觉识别架构)

简介:在本文中,我们提出了视觉置换器,这是一种概念上简单且数据高效的类似MLP 的视觉识别架构。通过意识到重要性由 2D 特征表示携带的位置信息,不像最近的类似 MLP 的模型沿着扁平的平面编码空间信息空间维度,视觉置换器分别使用线性投影沿高度和宽度维度对特征表示进行编码。这允许视觉置换器沿一个空间方向捕获远程依赖关系,同时沿另一个空间方向保留精确的位置信息方向。然后将产生的位置敏感输出以相互补充的方式聚合以形成对象的表达表示出于兴趣。我们证明我们的视觉置换器是强大的竞争对手到卷积神经网络和视觉转换器。没有依赖空间卷积或注意力机制,视觉置换器无需额外大规模训练即可在 ImageNet 上达到 81.5% 的 top-1 准确率仅使用 25M 可学习参数的数据(例如 ImageNet-22k),这是很多在相同的模型尺寸约束下,比大多数 CNN 和视觉变换器更好。当扩展到 88M 时,它达到 83.2% 的 top-1 准确率。

代码下载:https://github.com/Andrew-Qibin/VisionPermutator

论文地址:http://arxiv.org/pdf/2106.12368.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除