CNN、Transformer、MLP架构的经验性分析

近期Transformer MLP系列模型的出现，增加了CV领域的多样性，MLP-Mixer的出现表明卷积或者注意力都不是模型性能优异的必要条件。不同架构的模型进行比较的过程中，会使用不同的正则化方法、训练技巧等，为了比较的公平性，本文提出了SPACH的统一框架，期望对几种架构进行对比，同时探究他们各自的特点。

论文标题：

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

论文链接：

https://arxiv.org/pdf/2108.13002v2.pdf

代码：

https://github.com/microsoft/SPACH

这个框架总体来说有两种模式：多阶段和单阶段。每个阶段内部采用的是Mixing Block，而该Mixing Block可以是卷积层、Transformer层以及MLP层。

经过实验发现了以下几个结论：

多阶段框架效果优于单节段框架（通过降采样划分阶段）
局部性建模具有高效性和重要性。

通过使用轻量级深度卷积（depth wise conv)，基于卷积的模型就可以取得与Transformer模型类似的性能。
在MLP和Transformer的架构的支路中使用一些局部的建模可以在有效提升性能同时，只增加一点点参数量。

MLP在小型模型中具有非常强的性能表现，但是模型容量扩大的时候会出现过拟合问题，过拟合是MLP成功路上的拦路虎。
卷积操作和Transformer操作是互补的，卷积的泛化性能更强，Transformer结构模型容量更大。通过灵活组合两者可以掌控从小到大的所有模型。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CNN、Transformer、MLP架构的经验性分析

评论