论文标题:An Empirical Study of Training Self-Supervised Visual Transformers 论文链接:https://arxiv.org/abs/2104.02057 作者单位:Facebook 人工智能实验室
视觉Transformer + 自监督学习!本文深入探索了在自监督学习框架中训练ViT的研究工作,并正式提出MoCo v3 新自监督学习方法!
本文没有描述一种新颖的方法。取而代之的是,鉴于计算机视觉的最新进展,它研究了一个简单,渐进但必须了解的基线:Visual Transformers(ViT)的自监督学习。尽管标准卷积网络的训练方法已经非常成熟和强大,但ViT的方法尚未建立,尤其是在自监督的情况下,训练变得更具挑战性。在这项工作中,我们将回到基础知识,并研究几个基本组件对训练自监督的ViT的影响。我们观察到,不稳定性是降低准确性的一个主要问题,并且可以被明显良好的结果所掩盖。我们发现这些结果确实是部分失败,并且可以通过使训练更稳定来改善这些结果。我们在MoCo v3和其他几个自监督的框架中对ViT结果进行基准测试,并在各个方面进行了删节。我们讨论了目前的积极证据以及挑战和悬而未决的问题。我们希望这项工作将为将来的研究提供有用的数据点和经验。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢