- 简介视觉语言模型(VLMs)如CLIP在零样本图像分类方面取得了前所未有的性能,但是当面临领域转移时,它们的泛化能力仍然可能受到严重挑战。为此,我们提出了CLIP的加权平均测试时间自适应(WATT)方法,这是一种开创性的方法,可以促进对这种VLM的完全测试时间自适应(TTA)。我们的方法采用了多样化的文本提示模板,增强了现有的CLIP框架。预测结果被用作模型更新的伪标签,随后进行权重平均以在全局范围内巩固所学信息。此外,我们引入了一种文本集成策略,通过聚合多样化的文本线索提高整体测试性能。我们的研究结果强调了WATT在增强跨多种数据集的性能方面的功效,包括CIFAR-10-C、CIFAR-10.1、CIFAR-100-C、VisDA-C和其他几个具有挑战性的数据集,有效地覆盖了广泛的领域转移范围。值得注意的是,这些增强是在不需要额外的模型转换或可训练模块的情况下实现的。此外,与其他测试时间自适应方法相比,我们的方法只需要一张图像就可以有效地运行。强调创新测试时间策略的潜力,本研究强调它们在加强VLM适应性方面的作用。该实现可在以下网址获得:\url{https://github.com/Mehrdad-Noori/WATT.git}。
- 图表
- 解决问题本篇论文试图解决Vision-Language Models(VLMs)在面对领域转移时的泛化能力问题。
- 关键思路该论文提出了Weight Average Test-Time Adaptation(WATT)的方法来进行全面的测试时间适应(TTA),通过使用多样化的文本提示模板扩充CLIP的现有框架,利用预测结果作为模型更新的伪标签,并通过权重平均来全局整合学习信息,同时引入文本集成策略来提高总体测试性能。
- 其它亮点该方法在多个具有挑战性的数据集上取得了显著的性能提升,包括CIFAR-10-C,CIFAR-10.1,CIFAR-100-C,VisDA-C等。该方法不需要额外的模型转换或可训练模块,并且与其他测试时间适应方法相比,可以仅使用单个图像有效地操作。研究者提供了开源代码。
- 近期的相关研究包括:Meta-Learning with Implicit Gradients、Learning to Learn without Forgetting、Learning to Continually Learn、Few-shot Learning with Graph Neural Networks等。
沙发等你来抢
去评论
评论
沙发等你来抢