DeepMIM：遮挡图像建模的深度监督

深度监督，即对神经网络的中间特征天界额外约束，是图像分类等视觉任务中的常见手段。尽管在后期研究中，正则化层和残差连接等新方法取得了更好的效果，但研究人员仍未发现这一方法能够在预训练、自监督学习过程中迫使底层特征得到更好的表达能力，从而加速模型收敛。本文提出的方法DeepMIM显著地提升了模型特征的表达能力，其训练得到的Vit-B模型在ImageNet数据集上取得了84.2的精确率，超越MAE等方法0.6。在CLIP模型上，DeepMIM能够得到85.6的ImageNet数据集分类准确率，在COCO检测数据集上取得52.8的AP，在ADE20K语义分割数据集上取得53.1的mIoU。

论文地址：https://arxiv.org/pdf/2303.08817.pdf

开源代码：https://github.com/OliverRensu/DeepMIM

作者：Sucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu

内容中包含的图片若涉及版权问题，请及时与我们联系删除

DeepMIM：遮挡图像建模的深度监督

评论列表

评论