NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

VL-T5

收录会议：

ICML 2021

论文链接：

代码链接：

动机：

提出了一个统一的框架、统一的训练目标，能够兼容 7 个多模态任务的学习。统一的训练方式是 multimodal conditional text generation，即输入视觉图片+文本，生成文本 label，不同的任务之间的知识可以共享。

CLIP

收录会议：

ICML 2021

论文链接：

https://arxiv.org/abs/2103.00020

代码链接：

https://github.com/OpenAI/CLIP

动机

NLP 领域BERT/GPT 等可以利用大量的语料的数据进行自监督训练从而进行 pretrain，然而 CV 领域是用标注信息的分类数据集进行 pretrain (ImageNet)，是否能利用网上大规模的图片信息进行预训练，使用 natural language 作为 image representation 的监督信号，从而提升下游任务的效果。

Frozen

收录会议：

NeurIPS 2021

论文链接：

https://arxiv.org/abs/2106.13884

动机

借鉴 NLP 中 prompt 工作，Frozen 可以看成是一种 image conditional 下的 prompt learning，即将连续的 prompt 特征学习变成是来自于图片的特征（由另一个网络训练产生）。探究了固定语言模型参数下如何学习多模态任务。

CoOp

收录会议：

NeurIPS 2021

论文链接：

https://arxiv.org/abs/2109.01134

代码链接：

https://github.com/KaiyangZhou/CoOp

动机

CLIP 中使用的手工 prompt 有两个缺点：1）需要额外的知识和人力来为每个下游任务/数据集设计合适的 prompt，当数据集或者下游任务很多时非常耗时耗力；2）手工 prompt 不太稳定，对某个单词可能很敏感。把 NLP 中离散 token->连续 token 思路引入进来。

MAnTiS

论文链接：

https://arxiv.org/abs/2109.01229

动机

将 prompt 方法应用到文案生成。

论文链接：

https://arxiv.org/abs/2109.11797

动机

将 prompt 方法应用到 visual grounding 任务上，将任务转化为完形填空问题。

CLIP-Adapter

论文链接：

https://arxiv.org/abs/2110.04544

代码链接：

https://github.com/gaopengcuhk/clip-adapter

动机

soft prompt 优化的 CoOp，由于 CLIP 的过度参数化和缺乏足够的训练样本，简单的网络调整会导致对特定数据集的过拟合。从而本文只需对轻量级附加特征适配器进行微调，受参数有效迁移学习中适配器模块的启发，作者提出了 CLIP-Adapter，它只调整少量额外权重，而不是优化 CLIP 的所有参数。

DenseCLIP

收录会议：

CVPR 2022

论文链接：

https://arxiv.org/abs/2112.01518

代码链接：

https://github.com/raoyongming/denseclip

动机

CoOp 中可学的 prompt 是 task-level 或者 class-level 的，不能随着每个输入数据样例的变化而变化，本文设计了 instance-level 的 prompt，即把视觉（图片）特征注入到 prompt 向量中去，所以每个数据对应的 prompt 都是不一样的，引入了数据侧的信息。
从图像-文本对中学习到的知识转移到更复杂的密集预测任务的问题几乎没有被研究（目标检测、语义分割和动作识别等）。在这项工作中，作者通过隐式和显式地利用 CLIP 的预训练的知识，提出了一个新的密集预测框架。