基础视觉语言模型(如CLIP)因其出色的泛化能力而成为视觉领域的新范式。然而,在保持其泛化能力的同时,将这些模型应用于下游任务仍然是一个挑战。在文献中,一种方法通过使用视觉信息来学习提示信息来适应CLIP。虽然这种方法很有效,但大多数工作需要标记数据,这是不切实际的,并且通常由于在源数据上过度拟合而难以推广到新的数据集。另一种方法采用无需训练的方法,通过从大型语言模型(LLMs)生成类描述并执行提示合成。然而,这些方法通常会生成类特定的提示,无法转移到其他类,这会通过为每个类单独生成LLM描述而产生更高的成本。在这项工作中,我们提出了将这两种方法的优点相结合,仅使用从LLMs派生的文本数据来学习提示。由于没有图像,提示的监督训练并不容易,因此我们开发了一种训练方法,允许提示从LLM数据中提取丰富的上下文知识。此外,随着LLM上下文数据映射到学习的提示中,它使得提示可以零-shot地转移到新的类和数据集,潜在地降低了LLM提示工程成本。据我们所知,这是第一篇仅使用文本数据学习泛化提示的工作。我们在4个基准测试中进行了广泛的评估,其中我们的方法在改进先前的合成工作的同时,与利用标记图像的方法相比具有竞争力。我们的代码和预训练模型可在https://github.com/muzairkhattak/ProText上获得。
提问交流