- 简介Segment Anything Model(SAM)因其具有视觉提示的卓越交互式分割能力而受到广泛关注,但缺乏对文本提示的进一步探索。本文通过实证研究,探讨了文本提示编码器(例如CLIP或LLM)对于调整SAM以进行指代表达分割的作用,并引入了基于早期视觉语言融合的SAM(EVF-SAM)。EVF-SAM是一种简单而有效的指代分割方法,利用多模态提示(即图像和文本),包括一个预训练的视觉语言模型来生成指代提示和一个SAM模型来进行分割。令人惊讶的是,我们观察到:(1)多模态提示和(2)具有早期融合的视觉语言模型(例如BEIT-3)有利于促进SAM进行准确的指代分割。我们的实验表明,基于BEIT-3的EVF-SAM在RefCOCO / + / g上可以获得最先进的指代表达分割性能,并展示了早期视觉语言融合促进SAM的优越性。此外,与基于大型多模态模型的先前SAM方法相比,具有1.32B参数的EVF-SAM在显著提高性能的同时,减少了近82%的参数。
-
- 图表
- 解决问题本文旨在探究文本提示编码器(如CLIP或LLM)在适应SAM进行指称表达分割方面的优点,并引入基于早期视觉语言融合的SAM模型(EVF-SAM)。
- 关键思路EVF-SAM是一种简单而有效的指称分割方法,利用多模态提示(即图像和文本),包括一个预训练的视觉语言模型来生成指称提示和一个SAM模型用于分割。实验表明,多模态提示和早期视觉语言融合的模型是为SAM提供准确的指称分割的关键。
- 其它亮点EVF-SAM基于BEIT-3的表现优异,可在RefCOCO / + / g上获得最先进的指称表达分割性能。该方法的参数比以前基于大型多模态模型的SAM方法减少了近82%。
- 最近的相关研究包括:1)基于视觉语言模型的交互式分割方法;2)使用多模态提示的分割方法;3)使用不同的视觉语言模型进行分割。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流