- 简介Masked自编码器(MAE)作为一种代表性的自监督方法,在使用视觉变换器进行遮罩图像建模方面引起了关注。然而,即使MAE表现出比完全监督的从头开始训练更好的泛化能力,其原因尚未得到探究。另一方面,提出了一种重建一致的遮罩自编码器(RC-MAE),它采用了自蒸馏方案,即指数移动平均(EMA)教师,将其引入到MAE中,并且已经表明EMA教师在优化过程中执行条件梯度修正。为了从优化的角度进一步研究自监督ViT通过MAE(MAE-ViT)训练时更好的泛化原因以及RC-MAE的梯度校正效果,我们通过可视化自监督视觉变换器的损失景观来比较MAE和RC-MAE,并将它们与监督ViT(Sup-ViT)进行比较。与以前基于分类任务损失的神经网络损失景观可视化不同,我们通过计算预训练任务损失来可视化ViT的损失景观。通过损失景观的视角,我们发现了两个有趣的观察结果:(1)MAE-ViT的整体损失曲率比Sup-ViT更平滑且更宽。 (2)EMA教师使MAE能够在预训练和线性探测中扩大凸性区域,从而加快收敛速度。据我们所知,这项工作是首次通过损失景观的视角研究自监督ViT。
- 图表
- 解决问题探究自监督ViT的损失曲面
- 关键思路通过比较自监督MAE-ViT和RC-MAE-ViT的损失曲面与有监督Sup-ViT的损失曲面,研究了MAE-ViT为何具有更好的泛化能力,以及RC-MAE如何通过EMA-teacher实现梯度修正。
- 其它亮点通过可视化损失曲面,发现MAE-ViT的整体曲率更平滑更宽,EMA-teacher使MAE-ViT在预训练和线性探测时扩大了凸性区域,从而加快了收敛速度。这是第一篇从损失曲面视角研究自监督ViT的论文。
- 与之前的分类任务不同,本文通过计算预训练任务的损失来可视化ViT的损失曲面。与本文相关的研究包括MAE和RC-MAE的原始论文,以及其他自监督学习和ViT相关的论文,如SimCLR和DeiT。
沙发等你来抢
去评论
评论
沙发等你来抢