自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。
但与此同时, 研究人员也不得不思考它的局限性。
MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。
于是,一场整合的范式就此在研究团队中上演。
代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的应用。
但与MAE相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是SimMIM的基本尺寸模型,也无法在一台配置8个32GB GPU的机器上完成训练。
基于这样的背景,东京大学&商汤&悉尼大学的研究员,提供一个新思路。

论文链接:
https://arxiv.org/abs/2205.13515
GitHub链接:
https://github.com/LayneH/GreenMIM
不光将Swin Transformer整合到了MAE框架上,既有与SimMIM相当的任务表现,还保证了计算效率和性能——
将分层ViT的训练速度提高2.7倍,GPU内存使用量减少70%。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢