Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

2024年01月05日
  • 简介
    本文介绍了CLIP和Segment Anything Model(SAM)这两个非凡的视觉基础模型(VFMs)。SAM在不同领域的分割任务中表现出色,而CLIP以其零样本识别能力而闻名。本文深入探讨了将这两个模型集成到一个统一框架中的方法。具体而言,我们介绍了Open-Vocabulary SAM,这是一个基于SAM设计的模型,用于同时进行交互式分割和识别,利用了两个独特的知识转移模块:SAM2CLIP和CLIP2SAM。前者通过蒸馏和可学习的Transformer适配器将SAM的知识适应到CLIP上,而后者则将CLIP的知识转移到SAM中,增强其识别能力。在各种数据集和检测器上进行的广泛实验表明,Open-Vocabulary SAM在分割和识别任务中的有效性,明显优于简单地组合SAM和CLIP的朴素基线。此外,在图像分类数据训练的帮助下,我们的方法可以分割和识别约22,000个类别。
  • 图表
  • 解决问题
    论文旨在解决如何将CLIP和SAM两个视觉基础模型相结合,实现同时交互式分割和识别的问题。
  • 关键思路
    论文提出了Open-Vocabulary SAM模型,通过SAM2CLIP和CLIP2SAM两个知识转移模块实现了两个模型的互补,提高了分割和识别的性能。
  • 其它亮点
    论文在各种数据集和检测器上进行了大量实验,证明了Open-Vocabulary SAM在分割和识别任务中的有效性,明显优于简单结合SAM和CLIP的基线。此外,通过图像分类数据训练,该方法可以分割和识别约22,000个类别。
  • 相关研究
    在这个领域,最近的相关研究包括:《CLIP: Learning Transferable Visual Models From Natural Language Supervision》、《Segmentation in 2020》、《A Survey of Deep Learning for Image Segmentation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论