Vision-LSTM: xLSTM as Generic Vision Backbone

简介

Transformer目前在计算机视觉中被广泛用作通用的骨干网络，尽管它最初是为自然语言处理而引入的。最近，长短期记忆(LSTM)已经扩展为可扩展和高性能的架构-xLSTM-通过指数门控和可并行化的矩阵存储结构克服了长期存在的LSTM限制。在本报告中，我们介绍了Vision-LSTM(ViL)，它是将xLSTM构建块适应于计算机视觉的一种方法。ViL由一堆xLSTM块组成，其中奇数块从上到下处理补丁令牌序列，而偶数块从下到上处理。实验表明，ViL有望作为计算机视觉架构的新通用骨干网络进一步部署。
图表
解决问题

本论文旨在将最近提出的xLSTM架构应用于计算机视觉中，以解决当前使用Transformer作为通用骨干网络的问题。
关键思路

本文提出了Vision-LSTM（ViL），它是一种基于xLSTM构建块的计算机视觉适应性方法。ViL由一堆xLSTM块组成，其中奇数块从上到下处理补丁令牌序列，而偶数块从下到上处理。
其它亮点

实验结果表明，ViL作为计算机视觉架构的新通用骨干网络具有潜力。本文的亮点包括使用xLSTM架构解决了LSTM的限制，并将其应用于计算机视觉中。实验使用了多个数据集，并且开源了代码。
相关研究

最近的相关研究包括使用Transformer作为计算机视觉骨干网络的研究，例如《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。