标题:微软|BEIT: BERT Pre-Training of Image Transformers(BEIT:BERT 图像变换器预训练)

简介:我们引入了一个自我监督的视觉表示模型 BEIT,它代表用于图像转换器的双向编码器表示。我们提出一个蒙版图像建模任务来预训练视觉变压器。具体来说,每个图像在我们的预训练中有两个视图,即图像块和视觉标记。我们首先将原始图像“标记”为视觉标记。然后我们随机屏蔽一些图像块并喂给它们进入主干变压器。预训练的目标是恢复原始基于损坏的图像补丁的视觉标记。在对 BEIT 进行预训练后,我们通过附加任务直接微调下游任务的模型参数预训练编码器上的层。

代码地址:https://github.com/microsoft/unilm/tree/master/beit

论文下载:https://arxiv.org/pdf/2106.08254v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除