Frustratingly Easy Test-Time Adaptation of Vision-Language Models

2024年05月28日
  • 简介
    视觉-语言模型能够无缝地区分任意语义类别,但在面对具有挑战性的示例时仍然存在泛化能力差的问题。因此,基于剧集测试时间适应(TTA)策略最近成为一种强大的技术,可在单个未标记的图像存在的情况下适应VLM。关于TTA的最新文献主要以边缘熵最小化的提示调整范式为主,该范式依赖于在线反向传播,这不可避免地减慢了推理速度,同时增加了内存。在本文中,我们在理论上研究了这种方法的特性,并揭示了一种令人惊讶的强大TTA方法隐藏在其中。我们将这种方法称为ZERO(TTA与“零”温度),其设计既非常有效,又令人沮丧地简单:增加N次,预测,保留最有信心的预测,将Softmax温度设为零后进行边缘化。值得注意的是,ZERO仅需要通过视觉编码器进行一次批处理的前向传递,而无需进行反向传递。我们根据文献中建立的实验方案对我们的方法进行了彻底的评估,并表明ZERO在很大程度上超越或与最先进的技术相比具有竞争力,同时几乎比标准的测试时间提示调整快10倍,内存友好性高13倍。由于其简单性和相对较小的计算量,ZERO可以作为该领域未来工作的强大基准。代码可在https://github.com/FarinaMatteo/zero上获得。
  • 图表
  • 解决问题
    本论文旨在解决视觉语言模型在面对具有挑战性的样本时泛化能力差的问题,提出了一种称为ZERO的测试时间适应策略,旨在优化现有的测试时间适应策略,提高泛化能力。
  • 关键思路
    ZERO是一种快速、简单且高效的测试时间适应策略,通过在预测前进行N次扩充,保留最有信心的预测结果,并在将Softmax温度设置为零后进行边缘化。与当前领域的研究相比,ZERO的思路更加简单高效。
  • 其它亮点
    论文通过实验验证了ZERO的有效性,与标准测试时间提示调整相比,ZERO在速度和内存效率方面分别快10倍和13倍,并且在性能上与现有的最先进的方法相当甚至更好。论文提供了开源代码供研究者使用,同时ZERO的简单性和高效性可以作为未来研究的强有力基线。
  • 相关研究
    最近的相关研究集中在测试时间适应策略的设计上,如测试时间提示调整(TTA)等。相关论文包括“Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks”和“Zero-Shot Text-to-Image Generation”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论