论文标题:Masked Feature Prediction for Self-Supervised Visual Pre-Training

论文链接:https://arxiv.org/abs/2112.09133

MaskFeat最核心的改变就是将MAE对图像像素(pixel)的直接预测,替换成对图像的方向梯度直方图(HOG)的预测。

MaskFeat的ViT-B在ImageNet 1K上的准确率达到了84.0%,MViT-L在Kinetics-400上的准确率达到了86.7%,成功地超越了MAE,BEiT和SimMIM等方法。

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除