LookupViT: Compressing visual information to a limited number of tokens

向作者提问

NEW

简介

Vision Transformers（ViT）已成为许多工业级视觉解决方案的事实标准选择。但是它们的推理成本对许多设置来说可能是禁止的，因为它们在每个层中计算自我注意力，这在标记数量的二次计算复杂度中会受到影响。另一方面，图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。在这项工作中，我们介绍了LookupViT，旨在利用这种信息稀疏性来减少ViT推理成本。LookupViT提供了一种新颖的通用视觉变换器块，通过将高分辨率标记的信息压缩到固定数量的标记中来运行。这些少量压缩标记经过细致的处理，而高分辨率标记则通过计算成本更低的层。这两个标记集之间的信息共享通过双向交叉注意机制实现。该方法提供了多个优点-(a)通过标准高级运算符在标准ML加速器（GPU / TPU）上易于实现，(b)适用于标准ViT及其变体，因此可以推广到各种任务，(c)可以处理不同的标记化和注意方法。 LookupViT还为压缩标记提供了灵活性，在单个训练模型中实现性能-计算权衡。我们展示了LookupViT在多个领域的有效性-(a)用于图像分类（ImageNet-1K和ImageNet-21K），(b)视频分类（Kinetics400和Something-Something V2），(c)图像字幕（COCO-Captions）具有冻结的编码器。在这些领域中，LookupViT提供了2倍的FLOPs减少，同时保持或提高了精度。此外，LookupViT还展示了在图像分类（ImageNet-C，R，A，O）方面的开箱即用的鲁棒性和泛化性，相对于ViT提高了最多4％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决ViT模型在计算自注意力时存在的二次计算复杂度问题，提供一种利用图像和视频中空间信息稀疏性的方法来减少ViT推理成本。
关键思路

LookupViT提供了一种新颖的通用ViT块，通过将高分辨率标记的信息压缩到固定数量的标记中来实现操作。这些少量压缩的标记经过精细处理，而高分辨率标记则通过计算成本更低的层传递。这两个标记集之间的信息共享通过双向交叉注意机制实现。
其它亮点

论文展示了LookupViT在多个领域的有效性，包括图像分类（ImageNet-1K和ImageNet-21K）、视频分类（Kinetics400和Something-Something V2）和图像字幕（COCO-Captions）等。LookupViT提供了2倍的FLOPs减少，同时在这些领域中保持或提高准确性。此外，LookupViT还展示了对图像分类（ImageNet-C、R、A、O）的开箱即用的鲁棒性和泛化性能提高了高达4%。
相关研究

相关研究包括ViT和其变种，如DeiT、T2T-ViT、PVT等，以及其他一些使用自注意力机制的模型，如Bert、GPT等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问