- 简介视觉-语言模型(VLM)如CLIP在零样本图像分类方面取得了前所未有的性能,但当面临领域转移时,它们的泛化能力仍可能受到严重挑战。为此,我们提出了CLIP的权重平均测试时间自适应(WATT),这是一种开创性的方法,可以促进对该VLM的全面测试时间自适应(TTA)。我们的方法采用了各种各样的文本提示模板,增强了CLIP的现有框架。预测结果被用作模型更新的伪标签,随后进行权重平均以全局巩固所学信息。此外,我们引入了文本集成策略,通过聚合多样化的文本线索增强了整体测试性能。我们的研究结果强调了WATT在增强跨多个数据集的性能方面的有效性,包括CIFAR-10-C、CIFAR-10.1、CIFAR-100-C、VisDA-C和其他几个具有挑战性的数据集,有效覆盖了广泛的领域转移范围。值得注意的是,这些增强是在不需要额外的模型转换或可训练模块的情况下实现的。此外,与其他测试时间自适应方法相比,我们的方法只需一个图像就可以有效运行。强调创新测试时间策略的潜力,本研究强调了它们在加强VLM适应性方面的作用。实现可在以下网址找到:\url{https://github.com/Mehrdad-Noori/WATT.git}。
- 图表
- 解决问题本文旨在通过Weight Average Test-Time Adaptation (WATT)方法,实现对Vision-Language Models (VLMs)的全面测试时间自适应,以提高其在面对领域转移时的泛化能力。
- 关键思路WATT方法通过使用多样的文本提示模板,将预测结果用作模型更新的伪标签,然后通过权重平均方法全局整合学习到的信息,从而增强了VLMs的泛化能力。此外,引入了文本集成策略,通过聚合不同的文本提示来提高整体测试性能。
- 其它亮点本文的实验结果表明,WATT方法在多个数据集上都能有效提高VLMs的性能,包括CIFAR-10-C、CIFAR-10.1、CIFAR-100-C、VisDA-C等。此外,与其他测试时间自适应方法相比,WATT方法仅需要单张图片即可有效运作。本文提出的测试时间策略具有创新性和实用性,值得进一步研究。
- 与本文相关的研究包括测试时间自适应方法和Vision-Language Models的研究。其中,测试时间自适应方法的论文包括《Learning to Adapt in Dynamic, Real-World Environments through Meta-Reinforcement Learning》、《Online Meta-Learning》等;Vision-Language Models的论文包括《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢