SPFormer: Enhancing Vision Transformer with Superpixel Representation

2024年01月05日
  • 简介
    本文介绍了SPFormer,一种利用超像素表示增强的新型Vision Transformer。为了解决传统Vision Transformer的固定大小、非自适应的图像块划分的局限性,SPFormer采用了适应图像内容的超像素。这种方法将图像分成不规则的、语义上连贯的区域,有效地捕捉了复杂的细节,并适用于初始和中间特征层。SPFormer可以进行端到端的训练,在各种基准测试中表现出卓越的性能。值得注意的是,它在具有挑战性的ImageNet基准测试中表现出显著的改进,分别比DeiT-T和DeiT-S提高了1.4%和1.1%。SPFormer的一个突出特点是其内在的可解释性。超像素结构提供了一个窗口,可以了解模型的内部过程,提供有价值的洞察力,增强了模型的可解释性。这种清晰度显著提高了SPFormer的鲁棒性,特别是在图像旋转和遮挡等具有挑战性的情况下,展示了其适应性和弹性。
  • 图表
  • 解决问题
    SPFormer试图解决Vision Transformer中固定大小、非自适应补丁划分的限制,并提高模型的可解释性和鲁棒性。
  • 关键思路
    SPFormer使用自适应的超像素表示,将图像划分为语义上连贯的不规则区域,从而捕获图像的细节,并在不同层次上应用。同时,超像素结构提供了模型内部过程的窗口,增强了模型的可解释性和鲁棒性。
  • 其它亮点
    SPFormer在多个基准测试中展现了卓越的性能,特别是在ImageNet基准测试中,相比DeiT-T和DeiT-S分别提高了1.4%和1.1%。超像素结构提供了模型内部过程的窗口,增强了模型的可解释性和鲁棒性。
  • 相关研究
    最近的相关研究包括ViT、DeiT等Vision Transformer模型,以及使用超像素表示的其他图像分类模型,如SuperCNN和Superpixels as Building Blocks for Image Classification等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论