NeurIPS 2021 | MST：用于Transformer视觉表征的Masked自监督解读

在NeurIPS 2021上，商汤工业视觉研发团队联合中科院自动化研究所一同提出视觉Transformer掩码自监督学习方法，充分探索了Transformer在视觉领域的自监督学习方法，并针对直接将自然语言处理的掩码语言模型应用到视觉任务上的不足给出了有效的解决方法。

MST创新性地提出利用自注意特征引导动态掩码策略，用于保留高维视觉的高相应特征，避免主体特征因为掩码而被破坏。MST利用剩余的token来恢复出全局信息，使得网络保留图像的空间信息对下游密集任务非常友好。

MST在线性评估上使用DeiT-S的300epoch预训练模型就达到了Top-1 76.9% 超越有监督方法 0.4% ，并超越当时的最优方法DINO达到 1.0% 的结果。对于下游任务上，MST在MS COCO检测任务上达到 42.7% ，在Cityscapes的分割任务上达到 74.04% 。