兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

最近，掩蔽图像建模（MIM）为视觉 Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token，这要求编码器是普通视觉 Transformer（例如 ViT），但是分层视觉 Transformer（例如 Swin Transformer）在形成视觉输入方面具有潜在更好的特性。

在本文中，作者提出了一种新的分层视觉 Transformer HiViT（Hierarchy ViT 的缩写），它在 MIM 中既具有高效性，又具有良好的性能。关键是删除不必要的“局部单元间操作”，产生出结构简单的分层视觉 Transformer ，其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明，HiViT 在全监督、自监督和迁移学习方面具有优势。特别是，在 ImageNet-1K 上运行 MAE 时，HiViT-B 比 ViT-B 的准确度提高了 0.6%，比 Swin-B 的速度提高了 1.9 倍，性能提高可以推广到检测和分割的下游任务。

论文地址：https://arxiv.org/abs/2205.14949

内容中包含的图片若涉及版权问题，请及时与我们联系删除

​兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

评论

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构