- 简介本文介绍了一种名为Vision-Instructed Segmentation and Evaluation (VISE)的方法,将少样本图像分类和分割问题转化为视觉问答问题,并利用视觉语言模型(VLMs)以无需训练的方式解决该问题。该方法让VLMs与现成的视觉模型相互作用,从而只利用图像级别标签就能够对目标对象进行分类和分割。具体来说,链式思维提示和上下文学习指导VLMs像人类一样回答多项选择题;视觉模型,如YOLO和Segment Anything Model (SAM),帮助VLMs完成任务。所提出的方法的模块化框架使其易于扩展。我们的方法在Pascal-5i和COCO-20i数据集上实现了最先进的性能。
-
- 图表
- 解决问题本论文旨在解决few-shot image classification and segmentation (FS-CS)问题,通过将其转化为Visual Question Answering (VQA)问题,利用Vision-Language Models (VLMs)以及视觉模型完成训练-free的分类和分割任务。
- 关键思路该论文的主要思路是使用VLMs与视觉模型进行交互,通过链式思考提示和上下文学习引导VLMs回答多项选择问题,从而实现FS-CS问题的解决。这种模块化的方法使其易于扩展。
- 其它亮点该论文的亮点在于使用了训练-free的方法解决了FS-CS问题,在Pascal-5i和COCO-20i数据集上取得了最先进的性能。实验结果表明,该方法比当前的方法更加有效。此外,该论文还提供了开源代码。
- 目前在这个领域中,还有一些相关的研究,如MetaSeg和Few-shot Object Detection with Attention-RPN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流