ReMamber: Referring Image Segmentation with Mamba Twister

2024年03月26日
  • 简介
    使用变形器的参考图像分割(RIS)在解释复杂的视觉语言任务方面取得了巨大成功。然而,二次计算成本使其在捕捉长程视觉语言依赖方面消耗资源。幸运的是,Mamba通过高效的线性复杂度来解决这个问题。然而,直接将Mamba应用于多模态交互存在挑战,主要是由于通道交互不足,无法有效融合多模态数据。在本文中,我们提出了ReMamber,一种新颖的RIS架构,它将Mamba的强大功能与多模态Mamba Twister块相结合。Mamba Twister明确地对图像文本交互进行建模,并通过其独特的通道和空间扭曲机制融合文本和视觉特征。我们在三个具有挑战性的基准测试中实现了最先进的水平。此外,我们对ReMamber进行了彻底的分析,并讨论了使用Mamba的其他融合设计。这些为未来的研究提供了有价值的视角。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决使用transformers进行图像分割时的计算成本过高的问题,并提出了一种新的架构ReMamber,旨在更有效地融合多模态数据。
  • 关键思路
    论文提出了一种新的图像分割架构ReMamber,它将Mamba和多模态Mamba Twister块相结合,通过独特的通道和空间扭曲机制来融合文本和视觉特征。
  • 其它亮点
    论文在三个具有挑战性的基准测试中实现了最先进的结果,并对ReMamber进行了彻底的分析,讨论了使用Mamba的其他融合设计,为未来的研究提供了有价值的观点。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1)ViLBERT:预训练任务和数据集的联合训练,2)LXMERT:使用视觉和语言交互任务进行预训练的联合模型,3)UNITER:使用跨模态预训练任务进行联合训练的模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问