EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

简介

Segment Anything Model（SAM）因其具有视觉提示的卓越交互式分割能力而受到广泛关注，但缺乏对文本提示的进一步探索。本文通过实证研究，探讨了文本提示编码器（例如CLIP或LLM）对于调整SAM以进行指代表达分割的作用，并引入了基于早期视觉语言融合的SAM（EVF-SAM）。EVF-SAM是一种简单而有效的指代分割方法，利用多模态提示（即图像和文本），包括一个预训练的视觉语言模型来生成指代提示和一个SAM模型来进行分割。令人惊讶的是，我们观察到：（1）多模态提示和（2）具有早期融合的视觉语言模型（例如BEIT-3）有利于促进SAM进行准确的指代分割。我们的实验表明，基于BEIT-3的EVF-SAM在RefCOCO / + / g上可以获得最先进的指代表达分割性能，并展示了早期视觉语言融合促进SAM的优越性。此外，与基于大型多模态模型的先前SAM方法相比，具有1.32B参数的EVF-SAM在显著提高性能的同时，减少了近82％的参数。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探究文本提示编码器（如CLIP或LLM）在适应SAM进行指称表达分割方面的优点，并引入基于早期视觉语言融合的SAM模型（EVF-SAM）。
关键思路

EVF-SAM是一种简单而有效的指称分割方法，利用多模态提示（即图像和文本），包括一个预训练的视觉语言模型来生成指称提示和一个SAM模型用于分割。实验表明，多模态提示和早期视觉语言融合的模型是为SAM提供准确的指称分割的关键。
其它亮点

EVF-SAM基于BEIT-3的表现优异，可在RefCOCO / + / g上获得最先进的指称表达分割性能。该方法的参数比以前基于大型多模态模型的SAM方法减少了近82％。
相关研究

最近的相关研究包括：1）基于视觉语言模型的交互式分割方法；2）使用多模态提示的分割方法；3）使用不同的视觉语言模型进行分割。

EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

提问交流

提问交流