GalLoP: Learning Global and Local Prompts for Vision-Language Models

2024年07月01日
  • 简介
    快速学习已被广泛采用,以有效地适应视觉语言模型(VLMs),例如CLIP,用于少样本图像分类。尽管它们取得了成功,但大多数快速学习方法在分类准确性和鲁棒性之间存在平衡,例如在域通用性或超出分布(OOD)检测方面。在这项工作中,我们介绍了全局-局部提示(GalLoP),一种新的提示学习方法,它学习多个多样化提示,利用全局和局部视觉特征。局部提示的训练依赖于具有增强的视觉-文本对齐的局部特征。为了仅关注相关特征,这种局部对齐与在选择局部特征时的稀疏策略相结合。我们使用一种新的“提示丢失”技术和局部提示的多尺度策略来强制执行提示集的多样性。在不同的少样本设置和各种主干网络上,GalLoP在11个数据集上的准确性优于先前的提示学习方法。此外,GalLoP在域通用性和OOD检测方面表现出强大的鲁棒性性能,甚至优于专用的OOD检测方法。我们将开源代码和指令以重现我们的结果。
  • 图表
  • 解决问题
    本文旨在解决现有的prompt learning方法在分类准确性和鲁棒性之间的权衡问题,提出了一种新的方法GalLoP来学习多个多样化的提示,同时在不同的few-shot设置和各种骨干网络上提高了准确性和鲁棒性。
  • 关键思路
    GalLoP方法通过学习多个多样化的提示,利用全局和局部视觉特征,采用增强的视觉-文本对齐和稀疏策略来训练局部提示。同时,使用新的“prompt dropout”技术和局部提示的多尺度策略来确保提示的多样性。
  • 其它亮点
    实验结果表明,GalLoP方法在11个数据集上的准确性超过了之前的prompt learning方法,并且在领域泛化和OOD检测方面表现出强大的鲁棒性,甚至超过了专门的OOD检测方法。此外,研究人员还开源了代码和指令,方便其他研究人员进行复现和进一步研究。
  • 相关研究
    与本文相关的研究包括:CLIP、few-shot learning、domain generalization、OOD detection等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论