- 简介最近,预训练的视觉语言模型(例如CLIP)在少样本学习方面表现出巨大潜力,并吸引了许多研究兴趣。虽然已经努力改进CLIP的少样本能力,但现有方法有效性的关键因素尚未得到充分研究,限制了进一步探索CLIP在少样本学习中的潜力。本文首先介绍了一种统一的公式,从logit偏差的角度分析了基于CLIP的少样本学习方法,这鼓励我们学习一种有效的logit偏差,以进一步提高基于CLIP的少样本学习方法的性能。为此,我们分解了计算logit偏差的三个关键组成部分(即logit特征、logit预测器和logit融合),并从实证分析少样本分类的性能影响。基于关键组件的分析,本文提出了一种新的AMU-Tuning方法,用于学习适用于基于CLIP的少样本分类的有效logit偏差。具体而言,我们的AMU-Tuning通过利用适当的辅助特征来预测logit偏差,这些辅助特征被馈入具有多分支训练的高效特征初始化的线性分类器中。最后,开发了一种基于不确定性的融合方法,将logit偏差合并到CLIP中进行少样本分类。实验在几个广泛使用的基准测试上进行,结果表明AMU-Tuning明显优于其对手,并在没有花哨的情况下实现了基于CLIP的少样本学习的最新性能。
- 图表
- 解决问题本论文试图解决CLIP在few-shot learning中的性能问题,尤其是对现有方法中的关键因素进行分析和改进。
- 关键思路本论文提出了一个统一的公式来分析CLIP-based few-shot learning方法的logit偏差,并提出了一种新的AMU-Tuning方法来学习有效的logit偏差,以进一步提高性能。
- 其它亮点本论文通过实验证明AMU-Tuning方法在多个基准测试中均优于现有方法,并且在不使用额外技巧的情况下实现了CLIP-based few-shot learning的最新性能。
- 近期的相关研究包括Meta-Learning和Few-shot Learning等。
沙发等你来抢
去评论
评论
沙发等你来抢