标题:MIT|Visual Prompting:Modifying Pixel Space to Adapt Pre-trained Models(视觉提示:修改像素空间以适应预训练模型)

作者:Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan等

简介:本文将提示学习应用到图像预训练领域。提示最近已成为使语言模型适应下游的流行范式任务。这种方法不是微调模型参数或添加特定任务的头,而是引导只需在模型的输入中添加文本提示即可执行新任务的模型。在本文中,作者探讨了这个问题:作者可以用像素创建提示吗?换句话说,可以预训练视觉模型仅通过在输入中添加像素来适应新任务?作者介绍视觉提示,它学习特定于任务的图像扰动,使得冻结的预训练受到这种扰动提示的模型执行一项新任务。作者发现只改变一个几个像素就足以使模型适应新的任务和数据集,并且性能与线性探索相当,目前事实上的轻量级适配方法。出人意料的效果,视觉提示的研究为如何在视觉中调整预训练模型提供了一个新视角,并开辟了仅通过输入来调整模型的可能性,这与模型参数或输出不同,通常在最终用户的控制之下。

代码下载:https://hjbahng.github.io/visual_prompting/

论文下载:https://arxiv.org/pdf/2203.17274

内容中包含的图片若涉及版权问题,请及时与我们联系删除