- 简介Remote Sensing Image Change Captioning (RSICC)旨在用语言描述多时间点遥感图像之间的表面变化,包括变化的对象类别、位置和变化对象的动态(例如添加或消失)。这对双时间点特征的空间和时间建模提出了挑战。尽管以前的方法在空间变化感知方面取得了进展,但联合空间-时间建模仍存在弱点。为了解决这个问题,在本文中,我们提出了一种新的RSCaMa模型,通过多个CaMa层实现高效的联合空间-时间建模,从而使双时间点特征得到迭代细化。为了实现高效的空间建模,我们将最近流行的具有全局感受野和线性复杂度的Mamba(状态空间模型)引入到RSICC任务中,并提出了空间差异感知SSM(SD-SSM),克服了以前基于CNN和Transformer的方法在感受野和计算复杂度方面的局限性。SD-SSM增强了模型捕捉空间变化的能力。在高效的时间建模方面,考虑到Mamba的时间扫描特性与RSICC的时间性之间的潜在相关性,我们提出了时空穿越SSM(TT-SSM),以时间交叉方式扫描双时间点特征,增强了模型的时间理解和信息交互。实验证实了高效的联合空间-时间建模的有效性,并展示了RSCaMa的优异性能和Mamba在RSICC任务中的潜力。此外,我们系统地比较了三种不同的语言解码器,包括Mamba,GPT风格解码器和Transformer解码器,为未来的RSICC研究提供了有价值的见解。代码将在\emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}}上提供。
-
- 解决问题本论文旨在解决遥感图像变化描述中的空间和时间建模问题,提出一种新的RSCaMa模型。
- 关键思路该模型通过多个CaMa层实现高效的联合空间-时间建模,引入全局感受野和线性复杂度的Mamba,提出空间差异感知状态空间模型(SD-SSM)和时序遍历状态空间模型(TT-SSM),以提高模型对空间和时间变化的感知能力。
- 其它亮点该论文提出的RSCaMa模型在遥感图像变化描述任务中表现出色,Mamba模型具有较高的潜力,作者还系统比较了三种不同的语言解码器,并提供了开源代码。
- 最近的相关研究包括基于CNN和Transformer的方法,如ChangeDetNet和SCCN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流