标题:清华、西交、微软|Self-Supervised Learning with Swin Transformers(基于Swin变换器的自监督学习)

简介:我们目睹了计算机视觉领域从CNN到变换器的建模转变。在这项工作中,我们提出了一种称为MoBY的自监督学习方法,视觉变换器作为其骨干架构。该方法基本上没有新发明,仅将MoCo v2和BYOL相结合,并进行了微调,分别使用DeiT-S和Swin-T的top-1,通过300次训练,ImageNet-1K线性评估的准确性相当高:72.8%和75.0%。这性能略优于MoCo v3和DINO的最新作品,后者采用DeiT作为骨干,但它使用了很多技巧。更重要的是,通用的Swin Transformer主干使我们还能够评估下游任务的学习表示形式,例如对象检测和语义分割,与最近建立的一些方法相反在ViT / DeiT上,该报告仅报告ImageNet-1K上的线性评估结果ViT / DeiT不能适应这些密集的预测任务。我们希望该结果可以为Transformer架构设计提供自监督学习方法的进一步全面评估。

代码:https://github.com/SwinTransformer/Transformer-SSL

论文链接:https://arxiv.org/pdf/2105.04553v2.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除