- 简介Prompt Tuning已经成为一个重要的研究范式,用于将视觉-语言模型适应于各种下游任务。然而,最近的研究表明,由于训练样本有限,prompt tuning方法通常会导致过拟合。在本文中,我们提出了一种交叉模态对齐特征调整(Craft)方法来解决这个问题。通过从另一领域中选择锚点并推导出所选锚点的嵌入相对表示,进行交叉模态对齐。在锚点对齐的文本和图像模态上优化特征对齐损失,可以创建一个更统一的文本-图像共同空间。prompt tuning中的过拟合也会降低模型在分布外样本上的性能。为了进一步提高prompt模型的鲁棒性,我们提出在锚点对齐的特征空间上最小化最大均值差异(MMD)以减轻域转移。在四种不同的prompt tuning结构的实验中,我们的方法始终表现出改进,Base-to-Novel泛化任务中增加了高达6.1%,组鲁棒性任务中增加了5.8%,分布外任务中增加了2.7%。代码将在\href{https://github.com/Jingchensun/Craft}上提供。
- 图表
- 解决问题本文旨在解决Prompt Tuning方法在训练样本有限时容易导致过拟合的问题,进而影响模型在新任务和新领域上的表现。
- 关键思路本文提出了一种名为Cross-modal aligned feature tuning (Craft)的方法,通过交叉模态对齐和最大均值差异(MMD)损失来减少过拟合和域漂移的影响。具体而言,通过从另一个域中选择锚点,并针对锚点对齐的文本和图像模态进行特征对齐,从而创建更统一的文本-图像共享空间。
- 其它亮点本文实验结果表明,Craft方法在四种不同的Prompt Tuning结构上均取得了一致的改进效果,其中在Base-to-Novel通用性任务中增加了6.1%,在群体鲁棒性任务中增加了5.8%,在分布外任务中增加了2.7%。此外,本文提供了开源代码。
- 与本文相关的研究包括Prompt Tuning及其改进方法,如Few-shot Prompt Tuning和Prompt Programming。
沙发等你来抢
去评论
评论
沙发等你来抢