近期Transformer MLP系列模型的出现,增加了CV领域的多样性,MLP-Mixer的出现表明卷积或者注意力都不是模型性能优异的必要条件。不同架构的模型进行比较的过程中,会使用不同的正则化方法、训练技巧等,为了比较的公平性,本文提出了SPACH的统一框架,期望对几种架构进行对比,同时探究他们各自的特点。

论文标题:

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

论文链接:

https://arxiv.org/pdf/2108.13002v2.pdf

代码:

https://github.com/microsoft/SPACH

这个框架总体来说有两种模式:多阶段和单阶段。每个阶段内部采用的是Mixing Block,而该Mixing Block可以是卷积层、Transformer层以及MLP层。

经过实验发现了以下几个结论:

  • 多阶段框架效果优于单节段框架(通过降采样划分阶段)
  • 局部性建模具有高效性和重要性。
    • 通过使用轻量级深度卷积(depth wise conv),基于卷积的模型就可以取得与Transformer模型类似的性能。

    • 在MLP和Transformer的架构的支路中使用一些局部的建模可以在有效提升性能同时,只增加一点点参数量。

  • MLP在小型模型中具有非常强的性能表现,但是模型容量扩大的时候会出现过拟合问题,过拟合是MLP成功路上的拦路虎。
  • 卷积操作和Transformer操作是互补的,卷积的泛化性能更强,Transformer结构模型容量更大。通过灵活组合两者可以掌控从小到大的所有模型。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除