标题:南洋理工大学|LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS(基于学习提示的视觉语言模型)

作者:Kaiyang Zhou, Ziwei Liu

简介:本文利用提示来提升视觉语言预训练的泛化性能。它从使用图像和离散标签来学习一组固定的权重的传统转变为对齐图像和两个独立编码器的原始文本。不同的下游任务需要特定的设计,进一步阻碍了有效的部署。为了克服这一挑战,作者提出了一种名为上下文优化 (CoOp)。主要思想是使用连续表示对提示中的上下文进行建模,并从数据中执行端到端学习,同时保持预先训练的参数固定。这样,任务相关的设计提示可以完全自动化。在 11个数据集上的实验表明,CoOp 有效地将预训练的视觉语言模型转变为数据高效的视觉学习器,只需一两次样本就可以得到可观的性能,并且在使用更多样本时能够获得显著改进(例如,在 16个样本时,平均增益约为 17%,最高可达50%)。

代码下载:https://github.com/KaiyangZhou/CoOp

论文下载:https://arxiv.org/pdf/2109.01134v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除