Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models

简介

本文介绍了一种名为Vision-Instructed Segmentation and Evaluation (VISE)的方法，将少样本图像分类和分割问题转化为视觉问答问题，并利用视觉语言模型(VLMs)以无需训练的方式解决该问题。该方法让VLMs与现成的视觉模型相互作用，从而只利用图像级别标签就能够对目标对象进行分类和分割。具体来说，链式思维提示和上下文学习指导VLMs像人类一样回答多项选择题；视觉模型，如YOLO和Segment Anything Model (SAM)，帮助VLMs完成任务。所提出的方法的模块化框架使其易于扩展。我们的方法在Pascal-5i和COCO-20i数据集上实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决few-shot image classification and segmentation (FS-CS)问题，通过将其转化为Visual Question Answering (VQA)问题，利用Vision-Language Models (VLMs)以及视觉模型完成训练-free的分类和分割任务。
关键思路

该论文的主要思路是使用VLMs与视觉模型进行交互，通过链式思考提示和上下文学习引导VLMs回答多项选择问题，从而实现FS-CS问题的解决。这种模块化的方法使其易于扩展。
其它亮点

该论文的亮点在于使用了训练-free的方法解决了FS-CS问题，在Pascal-5i和COCO-20i数据集上取得了最先进的性能。实验结果表明，该方法比当前的方法更加有效。此外，该论文还提供了开源代码。
相关研究

目前在这个领域中，还有一些相关的研究，如MetaSeg和Few-shot Object Detection with Attention-RPN等。

Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models

提问交流

提问交流