标题:微软|SimMIM: A Simple Framework for Masked Image Modeling(SimMIM:用于遮蔽图像建模的简单框架)
作者:Zhenda Xie, Zheng Zhang, Yue Cao, Han Hu等
简介:本文介绍了一种简单的框架蒙版图像建模方法。作者简化最近提出的没有特殊设计的相关方法,例如通过离散VAE或聚类进行的块屏蔽和标记化。研究什么让遮蔽图像建模任务学习好的表征,作者系统地研究了框架中的主要组件,发现每个组件的简单设计都显示出非常强大的表征学习性能:1)随机遮蔽具有中等大小的蒙版补丁大小的输入图像(例如,32) 做一个很强的前置任务; 2)预测原始像素通过直接回归得到的 RGB 值的性能不差于具有复杂设计的补丁分类方法;3)预测头可以像线性层一样轻,同时性能没有变差。使用ViT-B,作者的方法实现了ImageNet-1K数据集上,83.8%的top-1微调精度,也在这个数据集上进行了预训练,超过了之前的最佳方法+0.6%。当应用于一个更大的模型,大约有 6.5 亿个参数SwinV2-H,它使用 ImageNet-1K实现了87.1%的top-1准确率。作者还利用这种方法来促进30亿模型(SwinV2-G) 的训练,即通过比以前的实践少40倍的数据,作者实现了四个代表性视觉的最新技术基准。
代码下载:https://github.com/microsoft/SimMIM
论文下载:https://arxiv.org/pdf/2111.09886v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢