Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images

简介

最近，具有线性复杂度的自回归网络的最新进展推动了重要的研究进展，展示了在大型语言模型中表现出色的能力。代表性模型是扩展长短期记忆网络（xLSTM），它结合了门控机制和记忆结构，在长序列语言任务中表现与Transformer架构相当。自回归网络如xLSTM可以利用图像序列化将其应用于视觉任务，如分类和分割。尽管现有研究已经证明了Vision-LSTM在图像分类方面的卓越表现，但其在图像语义分割方面的表现尚未得到验证。我们的研究代表了首次尝试评估Vision-LSTM在遥感图像语义分割中的有效性。这种评估基于一个特别设计的编码器-解码器架构，名为Seg-LSTM，并与最先进的分割网络进行比较。我们的研究发现，在大多数比较测试中，Vision-LSTM在语义分割方面的表现受到限制，通常比基于Vision-Transformers和Vision-Mamba的模型差。我们建议未来的研究方向是提高Vision-LSTM的性能。源代码可从https://github.com/zhuqinfeng1999/Seg-LSTM获得。
图表
解决问题

本文尝试评估Vision-LSTM在遥感图像语义分割方面的有效性，以及与最先进的分割网络的比较。
关键思路

本文设计了一种编码器-解码器架构Seg-LSTM，用于评估Vision-LSTM在遥感图像语义分割方面的性能。结果表明，Vision-LSTM的性能相对较差，通常比Vision-Transformers和Vision-Mamba的模型差。
其它亮点

本文是第一篇尝试评估Vision-LSTM在遥感图像语义分割方面的论文。研究还提供了开源代码。实验使用了特定的数据集进行评估，并与最先进的分割网络进行了比较。研究建议未来应该继续探索提高Vision-LSTM性能的方法。
相关研究

在这个领域中，最近的相关研究包括：Vision-Transformers和Vision-Mamba等模型在图像分类和语义分割方面的应用。

Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images

评论