- 简介Transformer目前在计算机视觉中被广泛用作通用的骨干网络,尽管它最初是为自然语言处理而引入的。最近,长短期记忆(LSTM)已经扩展为可扩展和高性能的架构-xLSTM-通过指数门控和可并行化的矩阵存储结构克服了长期存在的LSTM限制。在本报告中,我们介绍了Vision-LSTM(ViL),它是将xLSTM构建块适应于计算机视觉的一种方法。ViL由一堆xLSTM块组成,其中奇数块从上到下处理补丁令牌序列,而偶数块从下到上处理。实验表明,ViL有望作为计算机视觉架构的新通用骨干网络进一步部署。
- 图表
- 解决问题本论文旨在将最近提出的xLSTM架构应用于计算机视觉中,以解决当前使用Transformer作为通用骨干网络的问题。
- 关键思路本文提出了Vision-LSTM(ViL),它是一种基于xLSTM构建块的计算机视觉适应性方法。ViL由一堆xLSTM块组成,其中奇数块从上到下处理补丁令牌序列,而偶数块从下到上处理。
- 其它亮点实验结果表明,ViL作为计算机视觉架构的新通用骨干网络具有潜力。本文的亮点包括使用xLSTM架构解决了LSTM的限制,并将其应用于计算机视觉中。实验使用了多个数据集,并且开源了代码。
- 最近的相关研究包括使用Transformer作为计算机视觉骨干网络的研究,例如《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。
沙发等你来抢
去评论
评论
沙发等你来抢