Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models

2024年03月15日
  • 简介
    本文介绍了一种名为Vision-Instructed Segmentation and Evaluation (VISE)的方法,将少样本图像分类和分割问题转化为视觉问答问题,并利用视觉语言模型(VLMs)以无需训练的方式解决该问题。该方法让VLMs与现成的视觉模型相互作用,从而只利用图像级别标签就能够对目标对象进行分类和分割。具体来说,链式思维提示和上下文学习指导VLMs像人类一样回答多项选择题;视觉模型,如YOLO和Segment Anything Model (SAM),帮助VLMs完成任务。所提出的方法的模块化框架使其易于扩展。我们的方法在Pascal-5i和COCO-20i数据集上实现了最先进的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决few-shot image classification and segmentation (FS-CS)问题,通过将其转化为Visual Question Answering (VQA)问题,利用Vision-Language Models (VLMs)以及视觉模型完成训练-free的分类和分割任务。
  • 关键思路
    该论文的主要思路是使用VLMs与视觉模型进行交互,通过链式思考提示和上下文学习引导VLMs回答多项选择问题,从而实现FS-CS问题的解决。这种模块化的方法使其易于扩展。
  • 其它亮点
    该论文的亮点在于使用了训练-free的方法解决了FS-CS问题,在Pascal-5i和COCO-20i数据集上取得了最先进的性能。实验结果表明,该方法比当前的方法更加有效。此外,该论文还提供了开源代码。
  • 相关研究
    目前在这个领域中,还有一些相关的研究,如MetaSeg和Few-shot Object Detection with Attention-RPN等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问