IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks

简介

本文提出了IMProv——一种生成模型，能够从多模态提示中学习视觉任务。在测试时，给定一个视觉任务的文本描述（例如“左：输入图像，右：前景分割”）、一些输入-输出视觉示例或两者都有，该模型就能够在上下文中学习并解决新的测试输入。我们在一个新的数据集上训练了一个带掩码的生成变压器，该数据集包含了计算机视觉论文中的图形和相关标题，以及一个带标题的大规模图像-文本数据集。在推理时，我们用文本和/或图像任务示例提示模型，并让模型填充相应的输出。我们发现，使用文本条件和扩大数据集规模可以提高计算机视觉任务的上下文学习能力。例如，前景分割的平均精度提高了10%以上，单个物体检测的平均精度提高了5%以上，着色的LPIPS下降了近20%。我们的实验结果表明，视觉和语言提示是相互补充的，同时使用两者可以实现更好的上下文学习性能。该项目页面可在https://jerryxu.net/IMProv上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨如何通过多模态提示来实现视觉任务的上下文学习。
关键思路

该论文提出了一种基于掩膜生成变压器的生成模型IMProv，可以在测试时根据任务描述进行上下文学习。
其它亮点

该模型使用了计算机视觉论文中的图形和标题数据集，以及大规模的图像-文本数据集进行训练。在推理时，模型通过文本和/或图像任务示例进行提示，并对相应的输出进行填充。实验结果表明，使用文本和图像提示可以获得更好的上下文学习性能。
相关研究

在这个领域中，最近的相关研究包括《Learning to Learn from Web Data through Deep Semantic Embeddings》、《Learning to Learn with Conditional Class Dependencies》等。

IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks

提问交流

提问交流