使用MAE协同设计和扩展ConvNets V2，媲美Transformer

在前几十年的突破性研究的基础上，视觉识别领域迎来了大规模视觉表征学习的新时代。大规模预训练视觉模型已经成为表征学习和实现各种各样视觉应用的基本工具。关于视觉表征学习的性能，一般认为受到以下三个主要因素的影响：

使用的神经网络的结构
训练这个神经网络的方法
训练使用的数据

在视觉识别领域，以上三个子领域的进步都有助于模型整体性能的提高。

在本文中作者希望将架构的设计和自监督学习框架的设计结合起来，但是直接在 MAE 上使用 ConvNeXt 架构是有问题的。因为 MAE 的 Encoder-Decoder 设计是针对 Transformer 这样的序列信息处理能力强的模型设计的，compute-heavy encoder 可以专注于可见的 Patches，从而降低了预训练成本。这种设计可能与使用密集滑动窗口的标准 ConvNets 不兼容。所以，自监督学习的训练目标和架构之间的关系需要明确，否则就不清楚是否能实现最佳性能。经验证据表明，Transformer 和 ConvNet 可能具有不同的特征学习行为，这些行为可能会影响表征的质量。

作者提出协同设计神经网络的架构和掩码自编码器，目的是使基于掩码的自监督学习对 ConvNeXt 模型有效，使得性能接近 Transformer 获得的结果。在设计掩码自编码器时，我们将掩码输入视为一组 Sparse Patches，并使用稀疏卷积仅处理可见部分。在实践中，可以使用稀疏卷积实现 ConvNeXt，并且在 Fine-tuning 时，权重被转换回标准的密集层，而不需要特殊处理。为了进一步提高预训练效率，作者在实现解码器时，也使用 ConvNeXt 块，使整个设计完全卷积化。

论文题目：ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

论文地址：https://arxiv.org/pdf/2301.00808.pdf

来自 KAIST，Meta AI，FAIR，纽约大学 [ConvNeXt 原作者刘壮，谢赛宁团队]

本文提出 FCMAE 的框架，这种自监督学习技术和架构改进的协同设计产生了一个 ConvNeXt V2 的新模型，它显著提高了纯 ConvNet 在各种识别基准上的性能。

自监督学习方法 FCMAE 流程

自监督学习方法 FCMAE 概念上简单，并以完全卷积的方式运行。原始的输入信号被随机 mask，输入 Encoder，希望 Encoder + Decoder 的输出预测 mask 掉的部分。

作者使用 masking ratio 为0.6的随机掩码策略。由于卷积模型具有分层设计，其中特征在不同阶段进行下采样，掩码在最后阶段生成，并递归上采样直至最佳分辨率。作者从原始输入图像中随机去除 60% 的 32×32 Patches，数据增强只使用 Random resized cropping。

本节展示 FCMAE 预训练框架下的 ConvNeXt V2 架构的实验结果，作者展示了这些设计很好地协同作用。基于有监督训练的 ConvNeXt 性能卓越，受最近自监督方法 MAE 的启发，ConvNeXt 的性能还可能受益于 MAE。但是，直接结合这两种技术性能一般，因此本文提出 FCMAE 的框架，这种自监督学习技术和架构改进的协同设计产生了一个 ConvNeXt V2 的新模型，它显著提高了纯 ConvNet 在各种识别基准上的性能。

阅读原文请点击这里

ViT v.s. CNN: More ConvNets in 2020s，51×51的超大型纯CNN

内容中包含的图片若涉及版权问题，请及时与我们联系删除

使用MAE协同设计和扩展ConvNets V2，媲美Transformer

评论列表

评论