CVPR 2022 | FAIR提出MaskFeat：自监督视觉预训练新方法！灵感之一来自16年前CVPR论文

这是一个能用于视频模型的自监督预训练方法：掩码特征预测（MaskFeat）。

Masked Feature Prediction for Self-Supervised Visual Pre-TrainingMasked Feature Prediction for Vision Self-Supervised Pre-Training

简而言之，MaskFeat的ViT-B在ImageNet 1K上的准确率达到了84.0%，MViT-L在Kinetics-400上的准确率达到了86.7%，成功地超越了BEiT等方法。

一作Chen Wei是约翰·霍普金斯大学的计算机科学博士生，此前在北京大学获得了计算机科学学士学位。

并曾在FAIR、谷歌和华为诺亚方舟实验室实习，主要研究方向是视觉自监督学习。

HOG VS Pixel Colors

「Mask-and-Predict」总要有个可以「Predict」的特征来让模型学习到东西。 MaskFeat最核心的改变就是将MAE对图像像素（pixel）的直接预测，替换成对图像的方向梯度直方图（HOG）的预测。

图像HOG特征向量

说到HOG，这可不是什么新鲜玩意儿。

HOG是一种经典的图像特征提取算法，发表于2005年的CVPR，到现在已经收获了37000+的引用。

那为什么预测图像的HOG比直接预测像素更好呢？

像素作为预测目标，有一个潜在的缺点，那就是会让模型过度拟合局部统计数据（例如光照和对比度变化）和高频细节，而这些对于视觉内容的解释来说很可能并不是特别重要。

相反，方向梯度直方图（HOG）是描述局部子区域内梯度方向或边缘方向分布的特征描述符，通过简单的梯度滤波（即减去相邻像素）来计算每个像素的梯度大小和方向来实现的。

通过将局部梯度组织化和归一化，HOG对模糊问题更加稳健 HOG的特点是善于捕捉局部形状和外观，同时对几何变化不敏感，对光的变化也有不变性，计算引入的开销还很小，可以忽略不计。

这次，MaskFeat引入HOG，其实正是将手工特征与深度学习模型结合起来的一次尝试。

MaskFeat首先随机地mask输入序列的一部分，然后预测被mask区域的特征。

对未见过的验证图像的HOG预测

只不过，模型是通过预测给定masked input（左）的HOG特征（中间）来学习的，原始图像（右）并不用于预测。方向梯度直方图（HOG）这个点子的加入使得MaskFeat模型更加简化，在性能和效率方面都有非常出色的表现。

在不使用额外的模型权重、监督和数据的情况下，MaskFeat预训练的MViT-L在Kinetics-400数据集上获得了86.7%的Top-1准确率。

这个成绩以5.2%的幅度领先此前的SOTA，也超过了使用如IN-21K和JFT-300M这些大规模图像数据集的方法。

此外，MaskFeat的准确率在Kinetics-600数据集上为88.3%，在Kinetics-700数据集上为80.4%，在AVA数据集上为38.8 mAP，而在SSv2数据集上为75.0%。

内容中包含的图片若涉及版权问题，请及时与我们联系删除