Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

简介

本文介绍了CLIP和Segment Anything Model（SAM）这两个非凡的视觉基础模型（VFMs）。SAM在不同领域的分割任务中表现出色，而CLIP以其零样本识别能力而闻名。本文深入探讨了将这两个模型集成到一个统一框架中的方法。具体而言，我们介绍了Open-Vocabulary SAM，这是一个基于SAM设计的模型，用于同时进行交互式分割和识别，利用了两个独特的知识转移模块：SAM2CLIP和CLIP2SAM。前者通过蒸馏和可学习的Transformer适配器将SAM的知识适应到CLIP上，而后者则将CLIP的知识转移到SAM中，增强其识别能力。在各种数据集和检测器上进行的广泛实验表明，Open-Vocabulary SAM在分割和识别任务中的有效性，明显优于简单地组合SAM和CLIP的朴素基线。此外，在图像分类数据训练的帮助下，我们的方法可以分割和识别约22,000个类别。
图表
解决问题

论文旨在解决如何将CLIP和SAM两个视觉基础模型相结合，实现同时交互式分割和识别的问题。
关键思路

论文提出了Open-Vocabulary SAM模型，通过SAM2CLIP和CLIP2SAM两个知识转移模块实现了两个模型的互补，提高了分割和识别的性能。
其它亮点

论文在各种数据集和检测器上进行了大量实验，证明了Open-Vocabulary SAM在分割和识别任务中的有效性，明显优于简单结合SAM和CLIP的基线。此外，通过图像分类数据训练，该方法可以分割和识别约22,000个类别。
相关研究

在这个领域，最近的相关研究包括：《CLIP: Learning Transferable Visual Models From Natural Language Supervision》、《Segmentation in 2020》、《A Survey of Deep Learning for Image Segmentation》等。

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

评论