- 简介大规模的预训练视觉语言模型(如CLIP)已经展示了在不同领域中出色的零样本图像分类能力。为了增强CLIP的性能同时保持零样本范式,各种测试时提示调整方法已经被引入,通过无监督学习目标在推断期间来优化类别嵌入。然而,这些方法经常遇到选择适当的学习率的挑战,以防止在测试时适应过程中缺乏验证数据导致的训练崩溃。在本研究中,我们提出了一种新的无反向传播算法BaFTA,用于视觉语言模型的测试时适应。我们的方法不是通过微调文本提示来优化类别嵌入,而是直接在投影嵌入空间内使用在线聚类来估计类别质心,该空间对齐文本和视觉嵌入。我们通过评估每个预测的可靠性,动态聚合来自估计和原始类别嵌入以及不同的增强视图的预测,使用R\'enyi熵。通过大量实验,我们证明了BaFTA在有效性和效率方面一直优于最先进的测试时适应方法。
- 图表
- 解决问题本文旨在提出一种新的测试时间调整算法,以增强预训练的视觉语言模型CLIP的性能,同时保留零样本学习的范例。
- 关键思路本文提出了一种名为BaFTA的算法,通过在线聚类在投影嵌入空间内直接估计类别中心,而不是微调文本提示以细化类别嵌入。BaFTA通过评估每个预测的可靠性,动态聚合来自估计和原始类别嵌入以及不同的增强视图的预测。
- 其它亮点实验结果表明,BaFTA在有效性和效率方面始终优于现有的测试时间调整方法。论文还提供了使用的数据集和开源代码。
- 相关工作包括测试时间微调算法,如CLIP-DINO和CLIP-UNIMO,以及使用在线聚类的其他方法,如DEC和DCN。
沙发等你来抢
去评论
评论
沙发等你来抢