- 简介Vision Transformers(ViT)已成为许多工业级视觉解决方案的事实标准选择。但是它们的推理成本对许多设置来说可能是禁止的,因为它们在每个层中计算自我注意力,这在标记数量的二次计算复杂度中会受到影响。另一方面,图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。在这项工作中,我们介绍了LookupViT,旨在利用这种信息稀疏性来减少ViT推理成本。LookupViT提供了一种新颖的通用视觉变换器块,通过将高分辨率标记的信息压缩到固定数量的标记中来运行。这些少量压缩标记经过细致的处理,而高分辨率标记则通过计算成本更低的层。这两个标记集之间的信息共享通过双向交叉注意机制实现。该方法提供了多个优点-(a)通过标准高级运算符在标准ML加速器(GPU / TPU)上易于实现,(b)适用于标准ViT及其变体,因此可以推广到各种任务,(c)可以处理不同的标记化和注意方法。 LookupViT还为压缩标记提供了灵活性,在单个训练模型中实现性能-计算权衡。我们展示了LookupViT在多个领域的有效性-(a)用于图像分类(ImageNet-1K和ImageNet-21K),(b)视频分类(Kinetics400和Something-Something V2),(c)图像字幕(COCO-Captions)具有冻结的编码器。在这些领域中,LookupViT提供了2倍的FLOPs减少,同时保持或提高了精度。此外,LookupViT还展示了在图像分类(ImageNet-C,R,A,O)方面的开箱即用的鲁棒性和泛化性,相对于ViT提高了最多4%。
-
- 图表
- 解决问题论文旨在解决ViT模型在计算自注意力时存在的二次计算复杂度问题,提供一种利用图像和视频中空间信息稀疏性的方法来减少ViT推理成本。
- 关键思路LookupViT提供了一种新颖的通用ViT块,通过将高分辨率标记的信息压缩到固定数量的标记中来实现操作。这些少量压缩的标记经过精细处理,而高分辨率标记则通过计算成本更低的层传递。这两个标记集之间的信息共享通过双向交叉注意机制实现。
- 其它亮点论文展示了LookupViT在多个领域的有效性,包括图像分类(ImageNet-1K和ImageNet-21K)、视频分类(Kinetics400和Something-Something V2)和图像字幕(COCO-Captions)等。LookupViT提供了2倍的FLOPs减少,同时在这些领域中保持或提高准确性。此外,LookupViT还展示了对图像分类(ImageNet-C、R、A、O)的开箱即用的鲁棒性和泛化性能提高了高达4%。
- 相关研究包括ViT和其变种,如DeiT、T2T-ViT、PVT等,以及其他一些使用自注意力机制的模型,如Bert、GPT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流