Facebook与索邦大学Matthieu Cord教授合作开发的Data-efficient image Transformers (DeiT) ,模型(8600万参数)仅用一台8-GPU服务器在3天内训练完成,在ImageNet基准测试中达到了84.2 top-1准确性,而无需使用任何外部数据进行训练。性能与最先进的卷积神经网络(CNN)可以抗衡。
Facebook的博客中介绍了主要工作原理:
DeiT的第一个重要组成部分是其训练策略。我们在最初为CNN开发的已有研究的基础上做了调整。特别是使用了数据扩充、优化和正则化来模拟对更大数据集的训练。
同样重要的是,我们修改了Transformer架构以实现本地蒸馏。蒸馏是一个神经网络(学生)从另一网络(老师)的输出中学习的过程。我们将CNN用作Transformer的教师模型。由于CNN的架构具有更多的图像先验知识,因此可以使用较少数量的图像对其进行训练。
使用蒸馏会妨碍神经网络的性能。学生模型追求的两个目标可能会有所不同:从已标注的数据集(严格监督)中学习和向老师学习。为了减轻这种情况,我们引入了蒸馏令牌,这是一个学习的向量,它与转换后的图像数据一起流经网络。蒸馏令牌为其蒸馏输出暗示模型,该模型可能不同于其类别输出。这种新的蒸馏方法专用于Transformer,并进一步提高了图像分类性能。
代码已经开源:https://github.com/facebookresearch/deit 论文网页版本:https://www.arxiv-vanity.com/papers/2012.12877/
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢