论文标题:LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference 论文链接:https://arxiv.org/abs/2104.01136

在速度/准确性的权衡方面,LeViT明显优于现有的卷积网络和视觉Transformer,比如ViT、DeiT等,而且top-1精度为80%的情况下,LeViT比CPU上的EfficientNet快3.3倍!

我们设计了一系列图像分类体系结构,这些体系结构可在高速状态下优化准确性和效率之间的权衡。我们的工作利用了基于注意力的体系结构中的最新发现,该体系结构在高度并行处理硬件上具有竞争力。我们从卷积神经网络的大量文献中重新评估了原理,以将其应用于Transformer,尤其是分辨率降低的激活图。我们还介绍了注意力偏差,一种将位置信息集成到视觉Transformer中的新方法。结果,我们提出了LeVIT:一种用于快速推理图像分类的混合神经网络。我们考虑在不同的硬件平台上采用不同的效率衡量标准,以最好地反映各种应用场景。我们广泛的实验从经验上验证我们的技术选择,并表明它们适用于大多数体系结构。总体而言,在速度/准确性的权衡方面,LeViT明显优于现有的卷积网络和视觉Transformer。例如,在ImageNet top-1精度为80%的情况下,LeViT比CPU上的EfficientNet快3.3倍。

内容中包含的图片若涉及版权问题,请及时与我们联系删除