标题:谷歌、UCLA|When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations(优于 ResNets的无预训练或强数据增强的视觉变换器)
简介:视觉转换器 (ViT) 和 MLP 标志着在用通用神经架构替换手动特征或归纳偏置方面的进一步努力。现有工作通过海量数据为模型赋能,例如大规模预训练和/或重复的强数据增强,并且仍然报告与优化相关的问题(例如,对初始化和学习率的敏感性)。因此,本文从损失几何的角度研究 ViTs 和 MLP-Mixers,旨在提高模型在训练和推理时的泛化数据效率。可视化和Hessian 揭示了收敛模型的极其尖锐的局部最小值。通过使用最近提出的锐度感知优化器提高平滑度,我们显着提高 ViT 和 MLP 混合器的准确性和鲁棒性跨越监督、对抗、对比和迁移学习的各种任务。我们证明改进的平滑度归因于前几层中较稀疏的活动神经元。在以下情况下,最终的 ViTs 优于具有相似大小和吞吐量的 ResNets在没有大规模预训练或强数据的情况下在ImageNet 上从头开始训练增强。他们还拥有更敏锐的注意力图。
论文:https://arxiv.org/pdf/2106.01548v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢