- 简介最近,具有高效硬件感知设计的状态空间模型(SSMs),即Mamba,已经展现出对于长序列建模的巨大潜力。仅基于SSMs构建高效且通用的视觉骨干是一种吸引人的方向。然而,由于视觉数据的位置敏感性和对于全局上下文的要求,对于SSMs来说,表示视觉数据是具有挑战性的。在本文中,我们展示了视觉表示学习依赖于自注意力的观点是不必要的,并提出了一种新的具有双向Mamba块(Vim)的通用视觉骨干,它使用位置嵌入标记图像序列,并使用双向状态空间模型压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,与DeiT等成熟的视觉转换器相比,Vim实现了更高的性能,同时还展示了显着的计算和内存效率改进。例如,在执行分辨率为1248×1248的图像的批量推理以提取特征时,Vim比DeiT快2.8倍,并节省86.8%的GPU内存。结果表明,Vim能够克服计算和内存约束,实现对于高分辨率图像的Transformer-style理解,并且具有成为视觉基础模型下一代骨干的巨大潜力。代码可在https://github.com/hustvl/Vim获得。
- 图表
- 解决问题本文旨在提出一种新的通用视觉骨干网络,以解决SSMs在视觉数据表示方面的挑战,包括视觉数据的位置敏感性和全局上下文需求。同时,该论文试图证明自我关注在视觉表示学习中并非必要。
- 关键思路该论文提出了一种新的通用视觉骨干网络Vim,它使用双向Mamba块对图像序列进行标记,并使用位置嵌入压缩视觉表示。相比于当前领域的研究,该论文的思路在于使用SSMs进行长序列建模,同时使用位置嵌入和双向模型来处理视觉数据的位置敏感性和全局上下文需求。
- 其它亮点该论文通过在ImageNet分类、COCO目标检测和ADE20k语义分割任务中的表现,证明了Vim相比于DeiT等已有的视觉transformers在性能、计算效率和内存效率方面均有所提高。此外,该论文还提供了开源代码。
- 最近在该领域中,还有一些相关的研究,如ViT、DeiT等。
沙发等你来抢
去评论
评论
沙发等你来抢