何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

恺明出品，必属精品！这篇文章延续了其一贯的风格：简单且实用。这篇文章仍属于恺明最近两年的研究领域：自监督领域(自监督学习就是被他带火的吧)。本文的出发点则是BERT的掩码自编码机制：移除一部分数据并对移除的内容进行学习。掩码自编码源于CV但盛于NLP，恺明对此提出了疑问：是什么导致了掩码自编码在视觉与语言之间的差异？尝试从不同角度进行解释并由此引申出了本文的MAE。

论文链接：https://arxiv.org/pdf/2111.06377.pdf

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计：

我们设计了一种非对称编解码架构，其中解码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；
我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。

上述两种设计促使我们可以更高效的训练大模型：我们加速训练达3x甚至更多，同时提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能：仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度 。下游任务的迁移取得了优于监督训练的性能，证实了所提方案的可扩展能力。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

评论列表

评论