ReMamber: Referring Image Segmentation with Mamba Twister

简介

使用变形器的参考图像分割（RIS）在解释复杂的视觉语言任务方面取得了巨大成功。然而，二次计算成本使其在捕捉长程视觉语言依赖方面消耗资源。幸运的是，Mamba通过高效的线性复杂度来解决这个问题。然而，直接将Mamba应用于多模态交互存在挑战，主要是由于通道交互不足，无法有效融合多模态数据。在本文中，我们提出了ReMamber，一种新颖的RIS架构，它将Mamba的强大功能与多模态Mamba Twister块相结合。Mamba Twister明确地对图像文本交互进行建模，并通过其独特的通道和空间扭曲机制融合文本和视觉特征。我们在三个具有挑战性的基准测试中实现了最先进的水平。此外，我们对ReMamber进行了彻底的分析，并讨论了使用Mamba的其他融合设计。这些为未来的研究提供了有价值的视角。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决使用transformers进行图像分割时的计算成本过高的问题，并提出了一种新的架构ReMamber，旨在更有效地融合多模态数据。
关键思路

论文提出了一种新的图像分割架构ReMamber，它将Mamba和多模态Mamba Twister块相结合，通过独特的通道和空间扭曲机制来融合文本和视觉特征。
其它亮点

论文在三个具有挑战性的基准测试中实现了最先进的结果，并对ReMamber进行了彻底的分析，讨论了使用Mamba的其他融合设计，为未来的研究提供了有价值的观点。
相关研究

最近在这个领域中，还有一些相关的研究，如：1）ViLBERT：预训练任务和数据集的联合训练，2）LXMERT：使用视觉和语言交互任务进行预训练的联合模型，3）UNITER：使用跨模态预训练任务进行联合训练的模型。

ReMamber: Referring Image Segmentation with Mamba Twister

提问交流

提问交流