卷积神经网络(CNN)是计算机视觉中占主导地位的深度神经网络(DNN)体系结构。最近,Transformer和基于多层感知器(MLP)的模型,如Vision Transformer和MLP- mixer,开始引领新的趋势,因为它们在ImageNet分类任务中显示了很好的结果。在本文中,我们对这些DNN结构进行了实证研究,并试图了解它们各自的优缺点。为了确保公平的比较,我们首先开发了一个统一的框架,称为SPACH,它采用独立的空间和信道处理模块。我们在SPACH框架下的实验表明,所有的结构都可以在中等规模下获得相匹配的性能。然而,当网络规模扩大时,它们表现出不同的行为。基于我们的发现,我们提出了两个混合模型使用卷积和Transformer模块。得到的Hybrid-MS-S+模型的top-1精度为83.9%,参数为63M, FLOPS为12.3G。它已经可以与SOTA模型媲美,具有复杂的设计。代码和模型将向公众开放。
论文地址:https://arxiv.org/abs/2108.13002
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢