恺明出品,必属精品!这篇文章延续了其一贯的风格:简单且实用。这篇文章仍属于恺明最近两年的研究领域:自监督领域(自监督学习就是被他带火的吧)。本文的出发点则是BERT的掩码自编码机制:移除一部分数据并对移除的内容进行学习。掩码自编码源于CV但盛于NLP,恺明对此提出了疑问:是什么导致了掩码自编码在视觉与语言之间的差异?尝试从不同角度进行解释并由此引申出了本文的MAE。

 

论文链接:https://arxiv.org/pdf/2111.06377.pdf

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单:对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计:

  • 我们设计了一种非对称编解码架构,其中解码器仅作用于可见块(无需mask信息),而解码器则通过隐表达与mask信息进行原始图像重建;

  • 我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。

上述两种设计促使我们可以更高效的训练大模型:我们加速训练达3x甚至更多,同时提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能:仅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度 。下游任务的迁移取得了优于监督训练的性能,证实了所提方案的可扩展能力。

内容中包含的图片若涉及版权问题,请及时与我们联系删除