深度了解自监督学习，就看这篇解读！大规模预训练视觉任务的BERT模型：iBOT

字节提出的一篇最新的论文 iBOT 中，提出了适用于视觉任务的大规模预训练方法，通过对图像使用在线 tokenizer 进行 BERT 式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE。

论文链接：https://arxiv.org/pdf/2111.07832.pdf

在 iBOT 中，作者认为一个能够提取图像 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作者认为视觉的 tokenizer 应该具备两个属性：（a）具备完整表征连续图像内容的能力；(b) 像 NLP 中的 tokenizer 一样具备高层语义。作者首先将经过 mask 过的图片序列输入 Transformer 之后进行预测的过程建模为知识蒸馏的过程，从 tokenizer 中获得知识。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

深度了解自监督学习，就看这篇解读 ！大规模预训练视觉任务的BERT模型：iBOT

评论

深度了解自监督学习，就看这篇解读！大规模预训练视觉任务的BERT模型：iBOT