Learning to Prompt with Text Only Supervision for Vision-Language Models

2024年01月04日
  • 简介
    基础视觉语言模型(如CLIP)因其出色的泛化能力而成为视觉领域的新范式。然而,在保持其泛化能力的同时,将这些模型应用于下游任务仍然是一个挑战。在文献中,一种方法通过使用视觉信息来学习提示信息来适应CLIP。虽然这种方法很有效,但大多数工作需要标记数据,这是不切实际的,并且通常由于在源数据上过度拟合而难以推广到新的数据集。另一种方法采用无需训练的方法,通过从大型语言模型(LLMs)生成类描述并执行提示合成。然而,这些方法通常会生成类特定的提示,无法转移到其他类,这会通过为每个类单独生成LLM描述而产生更高的成本。在这项工作中,我们提出了将这两种方法的优点相结合,仅使用从LLMs派生的文本数据来学习提示。由于没有图像,提示的监督训练并不容易,因此我们开发了一种训练方法,允许提示从LLM数据中提取丰富的上下文知识。此外,随着LLM上下文数据映射到学习的提示中,它使得提示可以零-shot地转移到新的类和数据集,潜在地降低了LLM提示工程成本。据我们所知,这是第一篇仅使用文本数据学习泛化提示的工作。我们在4个基准测试中进行了广泛的评估,其中我们的方法在改进先前的合成工作的同时,与利用标记图像的方法相比具有竞争力。我们的代码和预训练模型可在https://github.com/muzairkhattak/ProText上获得。
  • 图表
  • 解决问题
    本文试图解决如何使用文本数据来学习通用的提示(prompts)以适应下游任务的问题,同时保持模型的泛化能力。
  • 关键思路
    本文通过使用仅从大型语言模型(LLMs)中提取的文本数据来学习提示,以便从LLM上下文数据中提取丰富的信息。通过将LLM上下文数据映射到学习的提示中,使得提示可以零样本地转移到新的类别和数据集上。
  • 其它亮点
    本文提出了一种使用文本数据来学习提示的方法,并在四个基准测试上进行了广泛的评估。该方法相对于之前的集成方法有所改进,同时与使用标记图像的方法相比也有竞争力。作者还提供了代码和预训练模型。
  • 相关研究
    最近的相关研究包括使用视觉信息学习提示的方法和从LLMs生成类别描述并执行提示集成的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论