最近,掩蔽图像建模(MIM)为视觉 Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。

在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具有高效性,又具有良好的性能。关键是删除不必要的“局部单元间操作”,产生出结构简单的分层视觉 Transformer ,其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明,HiViT 在全监督、自监督和迁移学习方面具有优势。特别是,在 ImageNet-1K 上运行  MAE 时,HiViT-B 比 ViT-B 的准确度提高了 0.6%,比 Swin-B 的速度提高了 1.9 倍,性能提高可以推广到检测和分割的下游任务。

论文地址:https://arxiv.org/abs/2205.14949

内容中包含的图片若涉及版权问题,请及时与我们联系删除