Wavelet-Based Image Tokenizer for Vision Transformers

2024年05月28日
  • 简介
    非重叠式分块卷积是所有最先进的视觉Transformer(ViT)模型的默认图像分词器。尽管已经提出了许多ViT变体以提高其效率和准确性,但在文献中很少有关于改进图像分词器本身的研究。在本文中,我们提出了一种基于小波变换的新图像分词器。我们展示了使用新分词器的ViT模型在ImageNet验证集上实现了更高的训练吞吐量和更好的top-1精度。我们对为什么所提出的分词器可以在不改变ViT模型架构的情况下提高训练吞吐量进行了理论分析。我们的分析表明,新分词器可以有效地处理高分辨率图像,并且自然具有抵抗对抗攻击的特性。此外,所提出的图像分词器为基于ViT的模型设计提供了重要的新研究方向,例如在非均匀网格上的图像令牌以进行图像理解。
  • 图表
  • 解决问题
    本文旨在提出一种新的图像分块方法,以提高视觉Transformer(ViT)模型的训练吞吐量和精度。同时,研究者也想探讨这种新的分块方法对于高分辨率图像和对抗攻击的鲁棒性处理是否有效。
  • 关键思路
    本文提出一种基于小波变换的图像分块方法,与当前流行的非重叠式分块方法相比,该方法可以更好地处理高分辨率图像,并且对于对抗攻击具有天然的鲁棒性。
  • 其它亮点
    本文的实验结果表明,使用新的图像分块方法的ViT模型在ImageNet验证集上取得了更高的训练吞吐量和更好的top-1精度。此外,该方法也为ViT模型的进一步研究提供了新的思路,例如在非均匀网格上处理图像。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”(Dosovitskiy等人,ICLR 2021)和“Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”(Liu等人,ICCV 2021)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论