- 简介通过从关于图像的原始文本中预训练图像表示,使得零样本视觉转移到下游任务成为可能。通过在互联网上收集数百万样本进行预训练,如CLIP这样的多模态基础模型,产生了具有竞争力的零样本结果,通常能够达到完全监督方法的水平,而不需要进行任务特定的训练。除了分类准确率的鼓舞人心的表现外,据报道这些模型通过匹配在自然分布移位下训练的ImageNet监督模型的表现来缩小了鲁棒性差距。因为鲁棒性对于现实世界的应用尤其是安全关键应用至关重要,在本文中,我们提出了一个基于大规模鲁棒性基准的全面评估,涵盖了7个自然分布、3个合成分布移位和11种对抗攻击。我们以CLIP为试点研究。我们展示了在我们的基准测试中,与受监督的ImageNet模型相比,CLIP在鲁棒性方面出现了显著下降,特别是在合成分布移位和对抗攻击下。此外,数据重叠分析表明,观察到的在自然分布移位下的鲁棒性可能至少部分归因于数据重叠。总之,我们的评估表明,需要进行全面的鲁棒性评估,并且需要显著提高零样本多模态模型的鲁棒性。
-
- 图表
- 解决问题本文旨在全面评估零样本多模态模型的鲁棒性,特别是在自然分布偏移和对抗攻击下的表现,并探究其鲁棒性的提升方法。
- 关键思路本文以CLIP模型为例,通过在大规模鲁棒性基准测试中的实验结果,证明了当前零样本多模态模型在鲁棒性方面存在不足,尤其是在自然分布偏移和对抗攻击下表现不佳。同时,本文还发现现有模型在自然分布偏移下的鲁棒性可能部分来源于数据重叠。
- 其它亮点本文使用大规模鲁棒性基准测试对CLIP模型进行了全面评估,探究了其在自然分布偏移和对抗攻击下的表现。实验结果表明,当前零样本多模态模型的鲁棒性还需要进一步提升。此外,本文还发现数据重叠可能对模型在自然分布偏移下的鲁棒性产生影响。本文的实验数据和代码已经开源。
- 近期的相关研究包括《Robustness Metrics and Open Problems》、《On Evaluating Adversarial Robustness》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流