Vision-LSTM: xLSTM as Generic Vision Backbone

2024年06月06日
  • 简介
    Transformer目前在计算机视觉中被广泛用作通用的骨干网络,尽管它最初是为自然语言处理而引入的。最近,长短期记忆(LSTM)已经扩展为可扩展和高性能的架构-xLSTM-通过指数门控和可并行化的矩阵存储结构克服了长期存在的LSTM限制。在本报告中,我们介绍了Vision-LSTM(ViL),它是将xLSTM构建块适应于计算机视觉的一种方法。ViL由一堆xLSTM块组成,其中奇数块从上到下处理补丁令牌序列,而偶数块从下到上处理。实验表明,ViL有望作为计算机视觉架构的新通用骨干网络进一步部署。
  • 图表
  • 解决问题
    本论文旨在将最近提出的xLSTM架构应用于计算机视觉中,以解决当前使用Transformer作为通用骨干网络的问题。
  • 关键思路
    本文提出了Vision-LSTM(ViL),它是一种基于xLSTM构建块的计算机视觉适应性方法。ViL由一堆xLSTM块组成,其中奇数块从上到下处理补丁令牌序列,而偶数块从下到上处理。
  • 其它亮点
    实验结果表明,ViL作为计算机视觉架构的新通用骨干网络具有潜力。本文的亮点包括使用xLSTM架构解决了LSTM的限制,并将其应用于计算机视觉中。实验使用了多个数据集,并且开源了代码。
  • 相关研究
    最近的相关研究包括使用Transformer作为计算机视觉骨干网络的研究,例如《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论