BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

前段时间，何恺明等人的一篇论文成为了计算机视觉圈的焦点。这篇论文仅用简单的 idea（即掩蔽自编码器，MAE）就达到了非常理想的性能，让人们看到了 Transformer 扩展到 CV 大模型的光明前景，给该领域的研究者带来了很大的鼓舞（参见《大道至简，何恺明新论文火了：Masked Autoencoders 让计算机视觉通向大模型》）。

那么，MAE 就是大模型视觉模型预训练方法的巅峰了吗？显然不是，一大波挑战者已经在路上了，比如字节跳动、约翰霍普金斯大学等机构组成的联合团队。

在一篇最新的论文中，他们提出了适用于视觉任务的大规模预训练方法 iBOT，通过对图像使用在线 tokenizer 进行 BERT [1]式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE 。

论文链接：https://arxiv.org/abs/2111.07832

内容中包含的图片若涉及版权问题，请及时与我们联系删除

BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

评论列表

评论