Conditional Prototype Rectification Prompt Learning

2024年04月15日
  • 简介
    这段摘要介绍了预训练的大规模视觉语言模型(VLMs)在有限数据场景下的微调问题。虽然目前的有效转移学习方法已经取得了显著进展,但是它们往往会出现过拟合的问题,而且只能利用单模态信息来建模任务特定的知识,同时使用昂贵而耗时的方法来补充知识。为了解决这些问题,作者提出了一种名为条件原型矫正提示学习(CPR)的方法,以有效地纠正基础示例的偏差并增强有限数据。具体而言,该方法从两个方面缓解了基础类别的偏差:首先,每个输入图像都从文本和视觉原型中获取知识,然后生成样本条件的文本令牌;其次,我们从未标记的数据中提取可利用的知识,进一步完善原型。这两种策略减轻了基础类别的偏差,从而产生了更有效的分类器。在11个基准数据集上的广泛实验表明,CPR在少样本分类和基于基础类别到新类别的泛化任务上均取得了最先进的性能。作者的代码可在\url{https://github.com/chenhaoxing/CPR}上获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决当前领域中有效利用有限数据进行视觉-语言模型微调的问题,避免过度拟合和使用昂贵的补充知识方法。
  • 关键思路
    论文提出了一种条件原型矫正提示学习(CPR)方法,通过从文本和视觉原型中获取知识并从未标记的数据中提取可用知识来纠正基础示例的偏差并增加有限数据。
  • 其它亮点
    论文在11个基准数据集上进行了广泛的实验,展示了CPR在少样本分类和基础到新泛化任务上的最先进表现。研究者已经开源了他们的代码。
  • 相关研究
    在最近的相关研究中,一些论文探讨了视觉-语言模型的微调和有效使用有限数据的方法,例如Meta-learning和数据增强等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问