Prompt—从CLIP到CoOp，Visual-Language Model新范式

最近NLP领域提出了Prompt新范式，企图革新原先的Fine-tuning方法，而在CV领域中，Prompt其实可以理解为图像label的设计，从这个角度看，Prompt(预测文本中mask的字符，类似完形填空)其实是介于Image caption(迭代预测出每一个字符)和one-hot label(one-hot可以认为是prompt的特例，单字符通过text encoder成one-hot)之间的任务。最近在Visual-Language Model(缩写VLM)任务中，prompt开始展现出强大的能力。

本文首先介绍一下prompt和fine-tuning范式本质上有什么区别，然后介绍一下NLP中基于prompt的PET和AutoPrompt方法，最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。

另外，CLIP和CoOp都是基于prompt的判别式VLM方法，最近还有几篇基于prompt生成式VLM方法，基于prompt的生成式VLM和基于prompt的NLP方法非常类似，本文就不展开细讲了，放一下文章链接

Unifying Vision-and-Language Tasks via Text Generation：

https://arxiv.org/abs/2102.02779v1

Multimodal Few-Shot Learning with Frozen Language Models：

https://arxiv.org/abs/2106.13884

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Prompt—从CLIP到CoOp，Visual-Language Model新范式

评论列表

评论