SPFormer: Enhancing Vision Transformer with Superpixel Representation

简介

本文介绍了SPFormer，一种利用超像素表示增强的新型Vision Transformer。为了解决传统Vision Transformer的固定大小、非自适应的图像块划分的局限性，SPFormer采用了适应图像内容的超像素。这种方法将图像分成不规则的、语义上连贯的区域，有效地捕捉了复杂的细节，并适用于初始和中间特征层。SPFormer可以进行端到端的训练，在各种基准测试中表现出卓越的性能。值得注意的是，它在具有挑战性的ImageNet基准测试中表现出显著的改进，分别比DeiT-T和DeiT-S提高了1.4%和1.1%。SPFormer的一个突出特点是其内在的可解释性。超像素结构提供了一个窗口，可以了解模型的内部过程，提供有价值的洞察力，增强了模型的可解释性。这种清晰度显著提高了SPFormer的鲁棒性，特别是在图像旋转和遮挡等具有挑战性的情况下，展示了其适应性和弹性。
图表
解决问题

SPFormer试图解决Vision Transformer中固定大小、非自适应补丁划分的限制，并提高模型的可解释性和鲁棒性。
关键思路

SPFormer使用自适应的超像素表示，将图像划分为语义上连贯的不规则区域，从而捕获图像的细节，并在不同层次上应用。同时，超像素结构提供了模型内部过程的窗口，增强了模型的可解释性和鲁棒性。
其它亮点

SPFormer在多个基准测试中展现了卓越的性能，特别是在ImageNet基准测试中，相比DeiT-T和DeiT-S分别提高了1.4%和1.1%。超像素结构提供了模型内部过程的窗口，增强了模型的可解释性和鲁棒性。
相关研究

最近的相关研究包括ViT、DeiT等Vision Transformer模型，以及使用超像素表示的其他图像分类模型，如SuperCNN和Superpixels as Building Blocks for Image Classification等。

SPFormer: Enhancing Vision Transformer with Superpixel Representation

评论