Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts

解决问题:本文旨在解决如何利用GPT-4生成视觉描述并将其作为提示来改善CLIP在下游任务中的性能。同时,本文还探讨了使用少量数据进行适应的方法。

关键思路:本文的关键思路是利用GPT-4生成视觉描述,并将其作为提示来改善CLIP在下游任务中的性能。相比于当前的研究,本文的思路在于使用GPT-4生成更具体的提示,从而提高了模型的性能。

其他亮点:本文的实验结果表明,使用GPT-4生成的提示可以显著提高CLIP在特定下游数据集上的性能。此外,本文还设计了一个简单的few-shot适配器,可以学习选择最佳句子来构建可推广的分类器,其性能优于最近提出的CoCoOP。作者将在文章被接受后发布代码、提示和辅助文本数据集。

关于作者:本文的主要作者是Mayug Maniparambil、Chris Vorster、Derek Molloy、Noel Murphy、Kevin McGuinness和Noel E. O'Connor。他们分别来自爱尔兰都柏林城市大学、爱尔兰国立大学戈尔韦和都柏林城市大学。他们之前的代表作包括:Maniparambil等人的“Unsupervised Learning of Visual Features Through Spike Timing Dependent Plasticity”和McGuinness等人的“Insight Centre for Data Analytics: From Data to Knowledge”.

相关研究:近期相关的研究包括:“Training data-efficient image transformers & distillation through attention”(作者:Alexey Dosovitskiy等,机构:Google Research)和“VisualBERT: A Simple and Performant Baseline for Vision and Language”(作者:Liunian Harold Li等,机构:Facebook AI Research)。

论文摘要:本文介绍了如何使用生成式预训练模型GPT-4生成视觉描述文本,并将其用于改进对比预训练大型视觉-语言模型(VLMs)CLIP,以适应下游任务。我们发现,使用GPT-4生成的文本可以显著提高在特定的细粒度数据集(如EuroSAT(约7%),DTD(约7%),SUN397(约4.6%)和CUB(约3.3%))上的0-shot迁移准确性。此外,我们还设计了一个简单的少样本适配器,学习选择最佳句子来构建可推广的分类器,其性能比最近提出的CoCoOP平均高出约2%,在4个特定的细粒度数据集上高出超过4%。我们将在接受后发布代码、提示和辅助文本数据集。

内容中包含的图片若涉及版权问题,请及时与我们联系删除