Google发表博客,介绍之前介绍过的论文。并将代码和模型开源。

本文不同于以往工作的地方,就是尽可能地将NLP领域的transformer不作修改地搬到计算机视觉领域来。本文研究表明,对 CNN 的依赖不是必需的,当直接应用于图像块序列时,transformer 也能很好地执行图像分类任务。在实验中,本文作者发现,在中等规模的数据集上(例如ImageNet),transformer模型的表现不如ResNets;而当数据集的规模扩大,transformer模型的效果接近或者超过了目前的一些SOTA结果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除