- 简介这段摘要介绍了视觉语言模型(VLMs)在经过预训练后,即使只有少量数据进行微调,也能在下游任务中表现出出色的能力。然而,许多VLMs依赖于专有数据,不是开源的,这限制了使用白盒方法进行微调的可能性。因此,作者旨在开发一种黑盒方法,通过自然语言提示来优化VLMs,从而避免需要访问模型参数、特征嵌入甚至输出logits。作者提出采用基于聊天的语言模型(LLMs)来搜索最佳的文本提示,采用自动的爬山过程,通过评估当前提示的性能并要求LLMs根据文本反馈进行改进,从而收敛到一个有效的提示,所有这些都在一个对话过程中完成,而不需要人为干预。在具有挑战性的1-shot图像分类设置中,作者的简单方法在包括ImageNet在内的11个数据集上平均超过了白盒持续提示方法(CoOp)1.5%。作者的方法还优于人工设计的提示和LLM生成的提示。作者强调了包括正面和负面提示的对话反馈的优点,表明LLMs可以利用文本反馈中的隐式梯度方向进行更有效的搜索。此外,作者发现通过他们的策略生成的文本提示不仅更易于解释,而且以黑盒方式在不同的VLM体系结构之间具有良好的迁移性。最后,作者在最先进的黑盒VLM(DALL-E 3)上展示了他们的框架,用于文本到图像的优化。
- 解决问题本论文旨在开发一种黑盒方法,通过自然语言提示来优化Vision-language models(VLMs),从而避免访问模型参数、特征嵌入甚至输出logits的需要。具体来说,采用自动爬山过程在对话过程中评估当前提示的性能并要求LLMs根据文本反馈进行优化,以收敛到有效提示。
- 关键思路本文提出了一种使用聊天式LLMs搜索最佳文本提示的方法,通过对话式反馈,利用文本反馈中的隐式梯度方向进行更高效的搜索。该方法在1-shot图像分类设置中表现出色,在11个数据集中平均超过白盒连续提示方法(CoOp)1.5%,并且还优于人工设计和LLM生成的提示。
- 其它亮点本文采用自动爬山过程在对话过程中评估当前提示的性能并要求LLMs根据文本反馈进行优化,以收敛到有效提示。实验结果表明,该方法不仅更可解释,而且在不同的VLM体系结构之间具有良好的迁移性。此外,还在DALL-E 3上展示了该框架的应用。
- 近期的相关研究包括GPT-3和Turing-NLG等。
沙发等你来抢
去评论
评论
沙发等你来抢