本文提出UM-MAE:一种基于Uniform Masking (UM) 策略的方法,UM包含一个统一采样 (US) 和一个二次Masking (SM) 步骤,成功地为流行的基于金字塔的具有局部性的ViT进行 MAE 预训练,性能优于SimMIM等网络,代码刚刚开源!

论文链接:https://arxiv.org/pdf/2205.10063.pdf

Masked AutoEncoder (MAE) 最近通过优雅的非对称编解码器设计引领了视觉自监督领域的趋势,显著优化了预训练效率和微调精度。值得注意的是,非对称结构的成功依赖于 Vanilla Vision Transformer (ViT) 的“全局”属性,其自注意力机制可以解释离散图像块的任意子集。

然而,目前还不清楚如何在 MAE 预训练中采用先进的基于 Pyramid 的 ViT(例如 PVT、Swin),因为它们通常在“局部”窗口中引入算子,从而难以处理部分视觉的随机序列token。

在本文中,我们提出了Uniform Masking(UM),成功地为基于 Pyramid 的具有局部性的 ViT 进行 MAE 预训练(简称为“UM-MAE”)。

内容中包含的图片若涉及版权问题,请及时与我们联系删除